Fugu-MT 論文翻訳(概要): Causal Analysis of Agent Behavior for AI Safety

論文の概要: Causal Analysis of Agent Behavior for AI Safety

arxiv url: http://arxiv.org/abs/2103.03938v1
Date: Fri, 5 Mar 2021 20:51:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-09 16:01:02.786922
Title: Causal Analysis of Agent Behavior for AI Safety
Title（参考訳）: AI安全のためのエージェント行動の因果分析
Authors: Gr\'egoire D\'eletang, Jordi Grau-Moya, Miljan Martic, Tim Genewein, Tom McGrath, Vladimir Mikulik, Markus Kunesch, Shane Legg, Pedro A. Ortega
Abstract要約: 人工エージェントの行動を促す因果メカニズムを解明するための方法論を提案する。 6つのユースケースをカバーし、アナリストがエージェントについて尋ねる典型的な質問にそれぞれ対処します。
参考スコア（独自算出の注目度）: 16.764915383473326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As machine learning systems become more powerful they also become increasingly unpredictable and opaque. Yet, finding human-understandable explanations of how they work is essential for their safe deployment. This technical report illustrates a methodology for investigating the causal mechanisms that drive the behaviour of artificial agents. Six use cases are covered, each addressing a typical question an analyst might ask about an agent. In particular, we show that each question cannot be addressed by pure observation alone, but instead requires conducting experiments with systematically chosen manipulations so as to generate the correct causal evidence.
Abstract（参考訳）: 機械学習システムがより強力になると、予測不能で不透明になる。しかし、人間の理解可能な説明を見つけることは、彼らの安全なデプロイメントに不可欠である。本報告では,人工エージェントの行動を促す因果メカニズムを調査する方法論について述べる。 6つのユースケースをカバーし、アナリストがエージェントについて尋ねる典型的な質問にそれぞれ対処します。特に、各質問は純粋な観察だけでは対処できないが、適切な因果証拠を生成するために、体系的に選択された操作による実験を行う必要がある。

関連論文リスト

The Limits of Predicting Agents from Behaviour [16.80911584745046]
我々は,エージェントの行動が世界モデルによって導かれるという仮定の下で,正確な回答を提供する。我々の貢献は、新しい(目に見えない)デプロイメント環境におけるエージェントの振る舞いに関する新しい境界の導出である。公平性や安全性など,いくつかの研究領域において,これらの結果がもたらす意味について論じる。
論文参考訳（メタデータ） (2025-06-03T14:24:58Z)
Toward a Theory of Agents as Tool-Use Decision-Makers [89.26889709510242]
真の自律性は、エージェントが、彼らが知っていること、必要なこと、そしてその知識を効率的に獲得する方法を統治する、一貫性のある疫学の枠組みに根ざす必要がある、と我々は主張する。本研究では,内的推論と外的行動を等価な疫学ツールとして扱う統一理論を提案し,エージェントが内観と相互作用を体系的に調整することを可能にする。この視点は、エージェントの設計を単なるアクションエグゼクタから知識駆動インテリジェンスシステムにシフトさせ、適応的で効率的でゴール指向の行動が可能な基礎エージェントを構築するための原則化された道筋を提供する。
論文参考訳（メタデータ） (2025-06-01T07:52:16Z)
PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文参考訳（メタデータ） (2024-01-22T12:11:55Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文参考訳（メタデータ） (2023-12-07T18:57:03Z)
Understanding Your Agent: Leveraging Large Language Models for Behavior Explanation [7.647395374489533]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。提案手法は,人間ドメインの専門家が作成したものと同じくらい役立つ説明を生成する。
論文参考訳（メタデータ） (2023-11-29T20:16:23Z)
Explaining Agent Behavior with Large Language Models [7.128139268426959]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。エージェントの振る舞いのコンパクトな表現がいかに学習され、妥当な説明を生み出すかを示す。
論文参考訳（メタデータ） (2023-09-19T06:13:24Z)
Incremental procedural and sensorimotor learning in cognitive humanoid robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文参考訳（メタデータ） (2023-04-30T22:51:31Z)
Conveying Autonomous Robot Capabilities through Contrasting Behaviour Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文参考訳（メタデータ） (2023-04-01T18:20:59Z)
GANterfactual-RL: Understanding Reinforcement Learning Agents' Strategies through Visual Counterfactual Explanations [0.7874708385247353]
本稿では,RLエージェントの反実的説明を生成する手法を提案する。本手法は完全にモデルに依存しないので,いくつかの計算量において,従来の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-02-24T15:29:43Z)
Discovering Agents [10.751378433775606]
エージェントの因果モデルは、機械学習システムの安全性の側面を分析するために使われてきた。本稿では, エージェントの因果的定義を初めて提唱する。エージェントは, アクションが世界に影響を与える場合, エージェントが政策に適応するシステムであることを概ね示唆する。
論文参考訳（メタデータ） (2022-08-17T15:13:25Z)
Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文参考訳（メタデータ） (2022-01-27T22:15:56Z)
CausalCity: Complex Simulations with Agency for Causal Discovery and Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文参考訳（メタデータ） (2021-06-25T00:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。