論文の概要: Human-AI Safety: A Descendant of Generative AI and Control Systems Safety
- arxiv url: http://arxiv.org/abs/2405.09794v2
- Date: Sat, 22 Jun 2024 20:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 00:53:00.465914
- Title: Human-AI Safety: A Descendant of Generative AI and Control Systems Safety
- Title(参考訳): Human-AIの安全性: 生成AIと制御システムの安全性の子孫
- Authors: Andrea Bajcsy, Jaime F. Fisac,
- Abstract要約: 先進的なAI技術に対する有意義な安全性保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と我々は主張する。
我々は、次世代の人間中心AI安全性に向けた具体的な技術ロードマップを提案する。
- 参考スコア(独自算出の注目度): 6.100304850888953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) is interacting with people at an unprecedented scale, offering new avenues for immense positive impact, but also raising widespread concerns around the potential for individual and societal harm. Today, the predominant paradigm for human--AI safety focuses on fine-tuning the generative model's outputs to better agree with human-provided examples or feedback. In reality, however, the consequences of an AI model's outputs cannot be determined in isolation: they are tightly entangled with the responses and behavior of human users over time. In this paper, we distill key complementary lessons from AI safety and control systems safety, highlighting open challenges as well as key synergies between both fields. We then argue that meaningful safety assurances for advanced AI technologies require reasoning about how the feedback loop formed by AI outputs and human behavior may drive the interaction towards different outcomes. To this end, we introduce a unifying formalism to capture dynamic, safety-critical human--AI interactions and propose a concrete technical roadmap towards next-generation human-centered AI safety.
- Abstract(参考訳): 人工知能(AI)は前例のない規模で人々と対話し、大きなポジティブな影響をもたらす新たな道を提供する一方で、個人や社会的な害の可能性を広く懸念している。
今日、人間-AI安全のための主要なパラダイムは、人が提供する例やフィードバックによりよく一致するように生成モデルの出力を微調整することに焦点を当てている。
しかし、実際には、AIモデルのアウトプットの結果は独立して決定することはできない。
本稿では,AIの安全性と制御システムの安全性から重要な補完的教訓を抽出し,オープンな課題と両分野間の重要なシナジーを強調した。
そして、高度なAI技術に対する有意義な安全保証には、AI出力と人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかについての推論が必要である、と論じる。
この目的のために、動的で安全クリティカルな人間-AIインタラクションをキャプチャするための統一的なフォーマリズムを導入し、次世代の人間中心AI安全性に向けた具体的な技術的なロードマップを提案する。
関連論文リスト
- Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。
本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T22:04:44Z) - The Rise of the AI Co-Pilot: Lessons for Design from Aviation and Beyond [22.33734581699234]
我々は、AIが単なるツールではなく、人間の指導の下で働く共同パイロットと見なされるパラダイムを提唱する。
本稿では,AIパートナーシップにおけるアクティブな人間の関与,制御,スキル向上を重視したデザインアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-16T13:58:15Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。