論文の概要: The Concept of Criticality in AI Safety
- arxiv url: http://arxiv.org/abs/2201.04632v1
- Date: Wed, 12 Jan 2022 17:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-15 03:50:01.977375
- Title: The Concept of Criticality in AI Safety
- Title(参考訳): AI安全における臨界の概念
- Authors: Yitzhak Spielberg, Amos Azaria
- Abstract要約: AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。
バリューアライメント問題を解決する方法の1つは、エージェントのすべてのアクションを監視する人間のオペレータを含めることである。
我々は、オペレータが監視タスクを無視することなく、他のアクティビティに関わることができる、より効率的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 8.442084903594528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When AI agents don't align their actions with human values they may cause
serious harm. One way to solve the value alignment problem is by including a
human operator who monitors all of the agent's actions. Despite the fact, that
this solution guarantees maximal safety, it is very inefficient, since it
requires the human operator to dedicate all of his attention to the agent. In
this paper, we propose a much more efficient solution that allows an operator
to be engaged in other activities without neglecting his monitoring task. In
our approach the AI agent requests permission from the operator only for
critical actions, that is, potentially harmful actions. We introduce the
concept of critical actions with respect to AI safety and discuss how to build
a model that measures action criticality. We also discuss how the operator's
feedback could be used to make the agent smarter.
- Abstract(参考訳): AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。
価値アライメント問題を解決する一つの方法は、エージェントのすべてのアクションを監視する人間のオペレータを含むことである。
このソリューションが最大限の安全性を保証しているにもかかわらず、人間オペレーターがエージェントにすべての注意を捧げる必要があるため、非常に非効率である。
本稿では,オペレータが監視タスクを無視することなく,他の活動に携わることができる,より効率的なソリューションを提案する。
我々のアプローチでは、AIエージェントは、クリティカルアクション、すなわち潜在的に有害なアクションに対してのみ、オペレータから許可を要求する。
本稿では,AIの安全性に関する批判行動の概念を紹介し,行動臨界度を測定するモデルの構築方法について論じる。
また,操作者のフィードバックを使ってエージェントをより賢くする方法についても論じる。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Risk Alignment in Agentic AI Systems [0.0]
監視の少ない複雑な行動を実行することができるエージェントAIは、そのようなシステムをユーザ、開発者、社会と安全に構築し整合させる方法について、新たな疑問を提起する。
リスクアライメントは、ユーザの満足度と信頼には重要ですが、社会にさらに大きな影響をもたらします。
これらの質問の重要な規範的および技術的側面を論じる3つの論文を提示する。
論文 参考訳(メタデータ) (2024-10-02T18:21:08Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models [0.3495246564946556]
この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。
提案されたソリューションは2つの主要コンポーネントで構成されている。まず、説明責任を提供するブラックボックスのような要素で、ブロックチェーン技術によって達成されるアンチタンパ特性を特徴とする。
第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。
論文 参考訳(メタデータ) (2024-03-14T16:57:18Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - What's my role? Modelling responsibility for AI-based safety-critical
systems [1.0549609328807565]
開発者や製造業者は、AI-SCSの有害な振る舞いに責任を負うことは困難である。
人間のオペレータは、作成に責任を負わなかったAI-SCS出力の結果に責任を負う"信頼性シンク"になる可能性がある。
本稿では,異なる責任感(ロール,モラル,法的,因果関係)と,それらがAI-SCSの安全性の文脈でどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-12-30T13:45:36Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Balancing Performance and Human Autonomy with Implicit Guidance Agent [8.071506311915396]
暗黙のガイダンスは、人間が計画の改善と自律性維持のバランスを維持するために有効であることを示す。
我々は、ベイズ的思考理論を既存の協調計画アルゴリズムに統合することにより、暗黙のガイダンスを持つ協調エージェントをモデル化した。
論文 参考訳(メタデータ) (2021-09-01T14:47:29Z) - Mitigating Negative Side Effects via Environment Shaping [27.400267388362654]
非構造環境で作動するエージェントは、しばしば負の副作用(NSE)を引き起こす
本稿では,この問題を解き,理論特性を解析するアルゴリズムを提案する。
提案手法は,エージェントが割り当てられたタスクを完了させる能力に影響を与えずに,nseを効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2021-02-13T22:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。