論文の概要: Human-AI Safety: A Descendant of Generative AI and Control Systems Safety
- arxiv url: http://arxiv.org/abs/2405.09794v1
- Date: Thu, 16 May 2024 03:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:30:35.772789
- Title: Human-AI Safety: A Descendant of Generative AI and Control Systems Safety
- Title(参考訳): Human-AIの安全性: 生成AIと制御システムの安全性の子孫
- Authors: Andrea Bajcsy, Jaime F. Fisac,
- Abstract要約: AI技術に対する有意義な安全性保証は、AIのアウトプットと人間の振る舞いによって形成されるフィードバックループが、どのようにして異なる結果に向かって相互作用を駆動するかを推論することによってのみ達成できる、と私たちは主張する。
我々は、生成AIの急速に成長する能力と、制御理論から動的安全フレームワークを橋渡しする、価値の高い機会の窓を構想する。
- 参考スコア(独自算出の注目度): 6.100304850888953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence (AI) is interacting with people at an unprecedented scale, offering new avenues for immense positive impact, but also raising widespread concerns around the potential for individual and societal harm. Today, the predominant paradigm for human-AI safety focuses on fine-tuning the generative model's outputs to better agree with human-provided examples or feedback. In reality, however, the consequences of an AI model's outputs cannot be determined in an isolated context: they are tightly entangled with the responses and behavior of human users over time. In this position paper, we argue that meaningful safety assurances for these AI technologies can only be achieved by reasoning about how the feedback loop formed by the AI's outputs and human behavior may drive the interaction towards different outcomes. To this end, we envision a high-value window of opportunity to bridge the rapidly growing capabilities of generative AI and the dynamical safety frameworks from control theory, laying a new foundation for human-centered AI safety in the coming decades.
- Abstract(参考訳): 生成的人工知能(AI)は、前例のない規模で人々と対話し、大きなポジティブな影響をもたらす新たな道を提供する一方で、個人や社会的な害の可能性を広く懸念している。
今日、人間とAIの安全性のための主要なパラダイムは、生成モデルのアウトプットを微調整することであり、人間が提供する例やフィードバックによりよく一致する。
しかし、実際には、AIモデルのアウトプットの結果は、独立したコンテキストでは決定できない。
本稿では,AIのアウトプットと人間の行動によって形成されるフィードバックループが,異なる結果に向けてどのように相互作用するかを推論することによって,これらのAI技術の有意義な安全保証を実現することができると論じる。
この目的のために、私たちは、生成AIの急速に成長する能力と制御理論からの動的安全フレームワークを橋渡しする、価値の高い機会の窓を構想し、今後数十年で人間中心のAI安全のための新しい基盤を構築します。
関連論文リスト
- Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。
本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T22:04:44Z) - The Rise of the AI Co-Pilot: Lessons for Design from Aviation and Beyond [22.33734581699234]
我々は、AIが単なるツールではなく、人間の指導の下で働く共同パイロットと見なされるパラダイムを提唱する。
本稿では,AIパートナーシップにおけるアクティブな人間の関与,制御,スキル向上を重視したデザインアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-16T13:58:15Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。