論文の概要: Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour
- arxiv url: http://arxiv.org/abs/2505.17801v1
- Date: Fri, 23 May 2025 12:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.055651
- Title: Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour
- Title(参考訳): マルチエージェント行動を説明するための言語モデルと対物シミュレーションの統合
- Authors: Bálint Gyevnár, Christopher G. Lucas, Stefano V. Albrecht, Shay B. Cohen,
- Abstract要約: AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISは、事前訓練されたマルチエージェントポリシーに対して、理解不能な因果説明を生成する。
5LLMの10シナリオにわたる自律走行におけるAXISの評価を行った。
- 参考スコア(独自算出の注目度): 26.04296415316974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous multi-agent systems (MAS) are useful for automating complex tasks but raise trust concerns due to risks like miscoordination and goal misalignment. Explainability is vital for trust calibration, but explainable reinforcement learning for MAS faces challenges in state/action space complexity, stakeholder needs, and evaluation. Using the counterfactual theory of causation and LLMs' summarisation capabilities, we propose Agentic eXplanations via Interrogative Simulation (AXIS). AXIS generates intelligible causal explanations for pre-trained multi-agent policies by having an LLM interrogate an environment simulator using queries like 'whatif' and 'remove' to observe and synthesise counterfactual information over multiple rounds. We evaluate AXIS on autonomous driving across 10 scenarios for 5 LLMs with a novel evaluation methodology combining subjective preference, correctness, and goal/action prediction metrics, and an external LLM as evaluator. Compared to baselines, AXIS improves perceived explanation correctness by at least 7.7% across all models and goal prediction accuracy by 23% for 4 models, with improved or comparable action prediction accuracy, achieving the highest scores overall.
- Abstract(参考訳): 自律型マルチエージェントシステム(MAS)は複雑なタスクを自動化するのに有用であるが、ミスコーディネーションやゴールミスアライメントといったリスクによる信頼度を高める。
信頼性の校正には説明責任が不可欠だが、MASのための説明可能な強化学習は、状態/行動空間の複雑さ、ステークホルダーのニーズ、評価の課題に直面している。
因果関係の反実的理論とLLMの要約能力を用いて,対話型シミュレーション (Interrogative Simulation, AXIS) を用いたエージェントeXplanationsを提案する。
AXISは、LLMが「Whatif」や「Remove」のようなクエリを使って環境シミュレーターを尋問して、複数のラウンドで反事実情報を観察、合成することで、事前訓練されたマルチエージェントポリシーに対する理解可能な因果説明を生成する。
主観的嗜好, 正当性, 目標/行動予測指標を組み合わせた新しい評価手法と, 外部LPMを併用した評価手法を用いて, 自律走行におけるAXISの評価を行った。
ベースラインと比較すると、AXISはすべてのモデルで少なくとも7.7%、目標予測精度は4モデルで23%向上し、全体として最高スコアを達成している。
関連論文リスト
- Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - MetaOpenFOAM: an LLM-based multi-agent framework for CFD [11.508919041921942]
MetaOpenFOAMは、新しいマルチエージェントコラボレーションフレームワークである。
入力として自然言語のみを用いてCFDシミュレーションタスクを完了することを目的としている。
MetaGPTのアセンブリラインパラダイムのパワーを利用する。
論文 参考訳(メタデータ) (2024-07-31T04:01:08Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Applied metamodelling for ATM performance simulations [0.0]
XALM(eXplainable Active Learning Metamodel)は、アクティブラーニングとSHAP値をシミュレーションメタモデルに統合するフレームワークである。
XALMはATMシミュレータにおける入力変数と出力変数の間の隠れた関係を効率的に発見する。
ケーススタディでは、シミュレーションの解釈可能性の向上と変数相互作用の理解におけるXALMの有効性が示されている。
論文 参考訳(メタデータ) (2023-08-07T08:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。