論文の概要: The Limits of Predicting Agents from Behaviour
- arxiv url: http://arxiv.org/abs/2506.02923v1
- Date: Tue, 03 Jun 2025 14:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.789064
- Title: The Limits of Predicting Agents from Behaviour
- Title(参考訳): 行動から予測するエージェントの限界
- Authors: Alexis Bellot, Jonathan Richens, Tom Everitt,
- Abstract要約: 我々は,エージェントの行動が世界モデルによって導かれるという仮定の下で,正確な回答を提供する。
我々の貢献は、新しい(目に見えない)デプロイメント環境におけるエージェントの振る舞いに関する新しい境界の導出である。
公平性や安全性など,いくつかの研究領域において,これらの結果がもたらす意味について論じる。
- 参考スコア(独自算出の注目度): 16.80911584745046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the complexity of AI systems and their interactions with the world increases, generating explanations for their behaviour is important for safely deploying AI. For agents, the most natural abstractions for predicting behaviour attribute beliefs, intentions and goals to the system. If an agent behaves as if it has a certain goal or belief, then we can make reasonable predictions about how it will behave in novel situations, including those where comprehensive safety evaluations are untenable. How well can we infer an agent's beliefs from their behaviour, and how reliably can these inferred beliefs predict the agent's behaviour in novel situations? We provide a precise answer to this question under the assumption that the agent's behaviour is guided by a world model. Our contribution is the derivation of novel bounds on the agent's behaviour in new (unseen) deployment environments, which represent a theoretical limit for predicting intentional agents from behavioural data alone. We discuss the implications of these results for several research areas including fairness and safety.
- Abstract(参考訳): AIシステムの複雑さと世界との相互作用が増加するにつれて、AIを安全にデプロイする上で、その振る舞いを説明することが重要である。
エージェントにとって、行動を予測するための最も自然な抽象化は、システムに対する信念、意図、目標である。
エージェントが特定の目標や信念を持っているかのように振る舞う場合、包括的安全性評価が不可能な場合など、新しい状況下でどのように振る舞うかを合理的に予測することができる。
エージェントの行動からエージェントの信念をどの程度推測できるのか、そしてこれらの推論された信念が、新しい状況下でエージェントの行動を予測することができるのか?
我々は,エージェントの行動が世界モデルによって導かれるという仮定の下で,この問題に対する正確な回答を提供する。
我々の貢献は、新しい(目に見えない)展開環境におけるエージェントの振る舞いに関する新しい境界の導出である。
公平性や安全性など,いくつかの研究領域において,これらの結果がもたらす意味について論じる。
関連論文リスト
- Safe Explicable Policy Search [3.3869539907606603]
本稿では、安全リスクを最小化しつつ、説明可能な行動生成のための学習アプローチを提供することを目的とした、安全な説明可能なポリシー探索(SEPS)を提案する。
我々は,SEPSを制約付き最適化問題として定式化し,エージェントは安全性に制約のある説明可能性スコアを最大化することを目的とする。
安全ジャム環境におけるSEPSを評価し, エージェントの安全要件に適合し, 効率のよい説明可能な動作を学習できることを実証するために, 物理ロボット実験を用いて実験を行った。
論文 参考訳(メタデータ) (2025-03-10T20:52:41Z) - Intention-aware policy graphs: answering what, how, and why in opaque agents [0.1398098625978622]
エージェントは、複雑な環境で相互作用し、創発的行動の可能性を高める、AIベースの特殊なソフトウェアである。
本稿では,確率的グラフィカルモデルと,そのようなモデル設計のためのパイプラインを提案する。
提案する説明の解釈可能性および信頼性を評価するために,提案手法を貢献する。
このモデルは、エージェントの行動と世界状態の一部を観察することで構築することができる。
論文 参考訳(メタデータ) (2024-09-27T09:31:45Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。
それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。
本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文 参考訳(メタデータ) (2023-06-19T19:03:53Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - A Unifying Bayesian Formulation of Measures of Interpretability in
Human-AI [25.239891076153025]
我々は,エージェントに関する人間の観察者の進化的信念をモデル化する統一ベイズフレームワークを提案する。
本研究では, 拡張性, 可読性, 予測可能性といった解釈可能性尺度の定義が, 一般的な枠組みの特例として現れることを示した。
論文 参考訳(メタデータ) (2021-04-21T20:06:33Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。