論文の概要: QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents
- arxiv url: http://arxiv.org/abs/2605.27068v1
- Date: Tue, 26 May 2026 14:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.215389
- Title: QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents
- Title(参考訳): QUICK:マルチモーダル・ソーシャル・ドダクション・エージェントにおけるコミュニケーション知識の質問・理解・監査
- Authors: Ye Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu,
- Abstract要約: QUACKはマルチモーダルな社会的推論におけるエージェント言語の基礎を監査するための評価フレームワークである。
エンジンログから各エージェントの基幹軌道を再構築し、それに対するすべての議論のクレームをチェックする。
最強のエージェントでさえ、検証可能な空間的主張の15.1%を幻覚させ、根拠のない証拠なしに告発の半数以上を犯している。
- 参考スコア(独自算出の注目度): 38.13248430205106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social deduction games have become a popular testbed for probing reasoning, deception, coordination, and belief modeling in Large Language Model (LLM) agents. However, most environments are scored only by game outcomes such as win rates and largely remain to text-only interaction, making it difficult to tell whether an agent's language is actually grounded in what it perceived and did, or to identify the failure modes underlying its behavior. To address this gap, we introduce QUACK, an open-source environment and evaluation framework for auditing the grounding of agent language in multimodal social reasoning. QUACK evaluates agents at three levels: game outcomes, behavioral trajectories, and utterance-level consistency. Its core Statement Verification Pipeline reconstructs each agent's ground-truth trajectory from engine logs and checks every discussion claim against it, automatically flagging spatial hallucination, unsupported accusation, deception collapse, and language-action inconsistency. Evaluating three frontier VLMs in both homogeneous and cross-model adversarial settings, we find that even the strongest agent hallucinates 15.1% of its verifiable spatial claims and makes over half of its accusations without grounded evidence. We release the full engine, evaluation framework, toolkit, and logs at https://github.com/AAAAA-Academia-Attractions/QUACK.
- Abstract(参考訳): 社会的推論ゲームは、Large Language Model (LLM)エージェントにおける推論、騙し、コーディネーション、信念モデリングのための一般的なテストベッドとなっている。
しかし、ほとんどの環境は、勝利率のようなゲーム結果によってのみ得点され、主にテキストのみのインタラクションに留まっているため、エージェントの言語が実際に認識され、何をしたか、あるいはその動作の根底にある障害モードを特定することは困難である。
このギャップに対処するために、マルチモーダルな社会的推論におけるエージェント言語の基礎を監査するためのオープンソース環境および評価フレームワークであるQUACKを紹介する。
QUICKはエージェントをゲーム結果、行動軌跡、発話レベルの一貫性の3つのレベルで評価する。
その中核となるステートメント検証パイプラインは、エンジンログから各エージェントの基幹軌道を再構築し、それに対するすべての議論の主張をチェックする。
3つのフロンティアVLMを均質的およびクロスモデル逆境的な設定で評価すると、最強のエージェントでさえその検証可能な空間的クレームの15.1%を幻覚し、根拠のない証拠のない告発の半数以上を犯すことがわかった。
我々は、完全なエンジン、評価フレームワーク、ツールキット、ログをhttps://github.com/AAAAA-Academia-Attractions/QUACKでリリースします。
関連論文リスト
- The Bystander Effect in Multi-Agent Reasoning: Quantifying Cognitive Loafing in Collaborative Interactions [6.357772907811544]
我々は3つのデータセットコンテキストにまたがる22,500の決定論的軌跡を,3つの最先端(SOTA)モデルで評価した。
我々はtextitSovereignty Gap を形式化する:モデルはしばしば正しい導出を内部で計算するが、アライメント幻覚に苦しむ」。
我々は,マルチエージェントの社会的負荷が厳密に非可換であることを証明し,リード・アンカーの監査役の「ブランド」アイデンティティは群集の整合性を不当に判断する。
論文 参考訳(メタデータ) (2026-05-11T15:13:01Z) - TriEx: A Game-based Tri-View Framework for Explaining Internal Reasoning in Multi-Agent LLMs [16.622300148265275]
TriExは、整列されたアーティファクトでシーケンシャルな意思決定を行う、トリビュー説明可能性フレームワークである。
本稿では,TriExにより,説明の忠実さ,信念のダイナミクス,評価者の信頼性をスケーラブルに分析できることを示す。
論文 参考訳(メタデータ) (2026-04-21T22:55:57Z) - GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing [16.419761149171215]
本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。
オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。
GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
論文 参考訳(メタデータ) (2026-03-07T13:21:53Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。