論文の概要: AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue
- arxiv url: http://arxiv.org/abs/2602.17443v1
- Date: Thu, 19 Feb 2026 15:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.121196
- Title: AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue
- Title(参考訳): AIDG:多言語対話における情報抽出と含みの非対称性の評価
- Authors: Adib Sakhawat, Fardeen Sadab, Rakin Shahriar,
- Abstract要約: 本稿では,対話における情報抽出(アクティブ推論)と情報包摂(状態維持)の非対称性を探索するゲーム理論フレームワークであるAIDGを紹介する。
モデルは抑止力に350ELOの利点があり、抑止力よりもかなり優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating the strategic reasoning capabilities of Large Language Models (LLMs) requires moving beyond static benchmarks to dynamic, multi-turn interactions. We introduce AIDG (Adversarial Information Deduction Game), a game-theoretic framework that probes the asymmetry between information extraction (active deduction) and information containment (state maintenance) in dialogue. We propose two complementary tasks: AIDG-I, measuring pragmatic strategy in social deduction, and AIDG-II, measuring constraint satisfaction in a structured "20 Questions" setting. Across 439 games with six frontier LLMs, we observe a clear capability asymmetry: models perform substantially better at containment than deduction, with a 350 ELO advantage on defense;(Cohen's d = 5.47). We identify two bottlenecks driving this gap: (1) Information Dynamics, where confirmation strategies are 7.75x more effective than blind deduction (p < 0.00001), and (2) Constraint Adherence, where instruction-following degrades under conversational load, accounting for 41.3% of deductive failures. These findings suggest that while LLMs excel at local defensive coherence, they struggle with the global state tracking required for strategic inquiry.
- Abstract(参考訳): LLM(Large Language Models)の戦略的推論能力を評価するには、静的ベンチマークから動的でマルチターンなインタラクションに移行する必要がある。
AIDG(Adversarial Information Deduction Game)は,対話における情報抽出(能動的推論)と情報保持(状態維持)の非対称性を探索するゲーム理論フレームワークである。
AIDG-I, AIDG-II, AIDG-IIの2つの相補的課題を提案する。
6つのフロンティア LLM を持つ 439 ゲーム全体では、モデルが抑止よりも封じ込めにおいてかなり優れた性能を発揮する(コーエン d = 5.47 )。
1)確認戦略がブラインド推論(p<0.00001)よりも7.75倍有効である情報ダイナミクスと,(2)会話負荷下での指示追従の低下が41.3%の抑止障害の原因となる制約順守の2つのボトルネックを同定した。
これらの結果から, LLMは地域防衛コヒーレンスに優れる一方で, 戦略的調査に必要なグローバルな国家追跡に苦慮していることが示唆された。
関連論文リスト
- What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior [0.0]
textbfDarkPatterns-LLMは,操作内容の詳細な評価を行うための総合的なベンチマークデータセットと診断フレームワークである。
本フレームワークでは,多階層検出(MGD),多スケールインテント分析(MSIAN),Threat Harmonization Protocol(THP),Deep Contextual Risk Alignment(DCRA)の4層解析パイプラインを実装している。
データセットには、インストラクション-レスポンスペアとエキスパートアノテーションを備えた401の厳密にキュレートされた例が含まれている。
論文 参考訳(メタデータ) (2025-12-27T05:05:46Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning [3.4643961367503575]
既存のUAVフレームワークには、コンテキスト対応の推論、自律的な意思決定、エコシステムレベルの統合が欠けている。
本稿では,5層アーキテクチャであるエージェントUAVフレームワークを紹介する(知覚,推論,アクション,統合,学習)。
ROS2 と Gazebo ベースのプロトタイプは YOLOv11 オブジェクト検出と GPT-4 推論とローカル Gemma-3 デプロイメントを統合している。
論文 参考訳(メタデータ) (2025-09-14T08:46:40Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - A Contextual Hierarchical Attention Network with Adaptive Objective for
Dialogue State Tracking [63.94927237189888]
本稿では,コンテキスト階層型アテンションネットワークを用いて対話状態追跡(DST)を強化することを提案する。
また,訓練中に異なるスロットの重みを動的に調整することでスロット不均衡問題を緩和する適応的目標を提案する。
実験の結果,MultiWOZ 2.0とMultiWOZ 2.1データセットでは52.68%,58.55%のジョイント精度が得られた。
論文 参考訳(メタデータ) (2020-06-02T12:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。