Fugu-MT 論文翻訳(概要): Human-AI Safety: A Descendant of Generative AI and Control Systems Safety

論文の概要: Human-AI Safety: A Descendant of Generative AI and Control Systems Safety

arxiv url: http://arxiv.org/abs/2405.09794v2
Date: Sat, 22 Jun 2024 20:17:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 00:53:00.465914
Title: Human-AI Safety: A Descendant of Generative AI and Control Systems Safety
Title（参考訳）: Human-AIの安全性: 生成AIと制御システムの安全性の子孫
Authors: Andrea Bajcsy, Jaime F. Fisac,
Abstract要約: 先進的なAI技術に対する有意義な安全性保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と我々は主張する。我々は、次世代の人間中心AI安全性に向けた具体的な技術ロードマップを提案する。
参考スコア（独自算出の注目度）: 6.100304850888953
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence (AI) is interacting with people at an unprecedented scale, offering new avenues for immense positive impact, but also raising widespread concerns around the potential for individual and societal harm. Today, the predominant paradigm for human--AI safety focuses on fine-tuning the generative model's outputs to better agree with human-provided examples or feedback. In reality, however, the consequences of an AI model's outputs cannot be determined in isolation: they are tightly entangled with the responses and behavior of human users over time. In this paper, we distill key complementary lessons from AI safety and control systems safety, highlighting open challenges as well as key synergies between both fields. We then argue that meaningful safety assurances for advanced AI technologies require reasoning about how the feedback loop formed by AI outputs and human behavior may drive the interaction towards different outcomes. To this end, we introduce a unifying formalism to capture dynamic, safety-critical human--AI interactions and propose a concrete technical roadmap towards next-generation human-centered AI safety.
Abstract（参考訳）: 人工知能(AI)は前例のない規模で人々と対話し、大きなポジティブな影響をもたらす新たな道を提供する一方で、個人や社会的な害の可能性を広く懸念している。今日、人間-AI安全のための主要なパラダイムは、人が提供する例やフィードバックによりよく一致するように生成モデルの出力を微調整することに焦点を当てている。しかし、実際には、AIモデルのアウトプットの結果は独立して決定することはできない。本稿では,AIの安全性と制御システムの安全性から重要な補完的教訓を抽出し,オープンな課題と両分野間の重要なシナジーを強調した。そして、高度なAI技術に対する有意義な安全保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と論じる。この目的のために、動的で安全クリティカルな人間-AIインタラクションをキャプチャするための統一的なフォーマリズムを導入し、次世代の人間中心AI安全性に向けた具体的な技術的なロードマップを提案する。

関連論文リスト

ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。すべての安全カテゴリーで攻撃の成功率は50%を超えている。結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文参考訳（メタデータ） (2025-09-03T15:00:28Z)
Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文参考訳（メタデータ） (2025-05-05T11:33:18Z)
Explanation-Driven Interventions for Artificial Intelligence Model Customization: Empowering End-Users to Tailor Black-Box AI in Rhinocytology [3.4705962607086973]
本稿では、ブラックボックスAIモデルのための新しいエンドユーザー開発(EUD)アプローチを提案する。提案手法はHuman-Centered AI(HCAI)を進化させ,人間と適応型ユーザカスタマイズ型AIシステムとの共生関係を促進する。
論文参考訳（メタデータ） (2025-04-07T08:44:48Z)
A Beautiful Mind: Principles and Strategies for AI-Augmented Human Reasoning [0.0]
本稿では,人間中心型拡張推論パラダイムについて概説する。人間の推論とAIアルゴリズムのブリッジとして機能するインタラクションモードの例を提供する。
論文参考訳（メタデータ） (2025-02-05T20:57:29Z)
Aligning Generalisation Between Humans and Machines [74.120848518198]
AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。 AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文参考訳（メタデータ） (2024-11-23T18:36:07Z)
How Performance Pressure Influences AI-Assisted Decision Making [57.53469908423318]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文参考訳（メタデータ） (2024-10-21T22:39:52Z)
Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-10-21T22:04:44Z)
The Rise of the AI Co-Pilot: Lessons for Design from Aviation and Beyond [22.33734581699234]
我々は、AIが単なるツールではなく、人間の指導の下で働く共同パイロットと見なされるパラダイムを提唱する。本稿では,AIパートナーシップにおけるアクティブな人間の関与,制御,スキル向上を重視したデザインアプローチを提案する。
論文参考訳（メタデータ） (2023-11-16T13:58:15Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
The Promise and Peril of Artificial Intelligence -- Violet Teaming Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文参考訳（メタデータ） (2023-08-28T02:10:38Z)
Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文参考訳（メタデータ） (2023-05-30T17:14:01Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文参考訳（メタデータ） (2021-07-12T14:21:46Z)
Adversarial Interaction Attack: Fooling AI to Misinterpret Human Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文参考訳（メタデータ） (2021-01-17T16:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。