論文の概要: When Contextual Inference Fails: Cancelability in Interactive Instruction Following
- arxiv url: http://arxiv.org/abs/2603.19997v1
- Date: Fri, 20 Mar 2026 14:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.185369
- Title: When Contextual Inference Fails: Cancelability in Interactive Instruction Following
- Title(参考訳): 文脈推論が失敗したとき:対話的指示の継続可能性
- Authors: Natalia Bila, Kata Naszádi, Alexandra Mayn, Christof Monz,
- Abstract要約: 私たちは、コンテキスト意味構築のためのインタラクティブなベンチマークであるBuild What I Meanを紹介します。
BWIMでは、モデルは文脈推論を行うか、小さな通信コストで明確化を要求することによって曖昧さを解決しなければならない。
我々は,不確実性の下でのパートナーブラインド過度明確化や質問逆推定などの準最適戦略を観察する。
- 参考スコア(独自算出の注目度): 51.2195840589474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the separation of literal interpretation from contextual inference in a collaborative block-building task where a builder must resolve underspecified instructions using contextual inferences. Building on an existing two-speaker psycholinguistic paradigm -- which contrasts a pragmatically cooperative speaker with one who is only literally reliable -- we introduce Build What I Mean (BWIM), an interactive benchmark for contextual meaning construction. In BWIM, models must resolve ambiguity by either performing a contextual inference or requesting clarification at a small communication cost. Evaluating several state-of-the-art LLMs, we find a dissociation between judgment and action: while models detect speaker unreliability in explicit confidence ratings, they fail to exploit this information to guide efficient clarification behavior. Instead, we observe suboptimal strategies, such as partner-blind over-clarification and question-averse guessing under uncertainty.
- Abstract(参考訳): 本研究では,コンテキスト推論を用いた不特定命令をビルダーが解決しなければならない協調的ブロック構築作業において,文脈推論からのリテラル解釈の分離について検討する。
実用的に協力的な話者と文字通り信頼できる話者を対比した、既存の2話者精神言語パラダイムに基づいて構築する。我々は、コンテキスト意味構築のためのインタラクティブなベンチマークであるBuild What I Mean(BWIM)を紹介する。
BWIMでは、モデルは文脈推論を行うか、小さな通信コストで明確化を要求することによって曖昧さを解決しなければならない。
モデルは、明確な信頼度評価において話者の不信を検知する一方で、これらの情報を利用して効率的な明確化行動の導出に失敗する。
代わりに、不確実性の下でのパートナー・ブレンドの過剰な明確化や質問・逆推定などの準最適戦略を観察する。
関連論文リスト
- The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning [76.96796481909581]
内部認知処理は高品質な応答の定式化に役立っている。
本稿では,音声認識と同時に潜在的思考を行うFLAIRという新しい手法を提案する。
我々のアプローチは音声対話システムとシームレスに一致している。
論文 参考訳(メタデータ) (2026-03-18T15:30:29Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Improving Dialogue Discourse Parsing through Discourse-aware Utterance Clarification [14.879100851573998]
本稿では,対話談話の性能を高めるための談話認識モジュール(DCM)を提案する。
DCMは、明確化型推論と談話目標推論の2つの異なる推論プロセスを採用している。
CPOは、DCMからの明確化の貢献を評価し、DCMを最適化するためのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-06-18T02:47:14Z) - Explaining Sources of Uncertainty in Automated Fact-Checking [41.236833314783134]
CLUE (Conflict-and-Agreement-aware Language-aware Language-model Uncertainty Explanations) は、モデル不確実性の自然言語説明を生成するフレームワークである。
クレーム・エビデンス(クレーム・エビデンス)またはインターエビデンス・コンフリクト(インターエビデンス・コンフリクト)を暴露するテキストと、モデルの予測の不確実性を促進する合意の間の関係を識別する。
CLUEは、モデルの不確実性により忠実で、事実チェックの決定とより一貫性のある説明を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:06:43Z) - Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation [5.259846811078731]
我々は、明確化のためのあいまいさの概念に注目し、明確化プロセスにおいてあいまいさをモデル化し統合することを模索する。
我々はこの新しいプロンプトスキームをAmbiguity Type-Chain of Thought (AT-CoT)と名付けた。
論文 参考訳(メタデータ) (2025-04-16T14:21:02Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - How to Enhance Causal Discrimination of Utterances: A Case on Affective
Reasoning [22.11437627661179]
本稿では,会話プロセスにテクスティ.i.d.ノイズ項を組み込むことにより,構造因果モデル(SCM)を構築することを提案する。
ディープラーニングの実装を容易にするため,非構造化会話データを扱うためのcognフレームワークを導入し,非可観測ノイズを学習可能な「単純な原因」とみなすオートエンコーダアーキテクチャを採用した。
論文 参考訳(メタデータ) (2023-05-04T07:45:49Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。