論文の概要: DRInQ: Evaluating Conversational Implicature with Controlled Context Variation
- arxiv url: http://arxiv.org/abs/2605.24267v1
- Date: Fri, 22 May 2026 22:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.836869
- Title: DRInQ: Evaluating Conversational Implicature with Controlled Context Variation
- Title(参考訳): DRInQ:文脈変化制御による会話障害の評価
- Authors: Hirona Jacqueline Arai, Xiang Ren,
- Abstract要約: 質問文における会話不規則に関する現実的推論を評価するためのベンチマークであるDRinQを紹介する。
本稿では,体系的変動を伴う質問文解釈インスタンスを生成する半自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 24.87053225680957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human conversation relies heavily on conversational implicature, in which speakers convey meanings that are suggested rather than explicitly stated. Although recent large language models exhibit strong conversational fluency, they remain unreliable when interpretation depends on reasoning that integrates social and contextual cues, a process rarely articulated in text. We introduce DRinQ, a benchmark for evaluating pragmatic reasoning about conversational implicature in question utterances, designed to isolate pragmatic variation while holding each question's surface form fixed. To support scalable evaluation, we propose a semi-automated pipeline that produces question-context-interpretation instances with systematic variation. Across evaluations, we find a consistent generation-inference asymmetry: while state-of-the-art models can generate plausible pragmatic scenarios when guided, they often fail to recover the intended implication at inference time. For smaller models, structured prompting improves alignment with human judgments. A comparative writing study further reveals complementary strengths: human authors tend to produce safer, predictable contexts, whereas models generate varied scenarios with interpretations that sometimes exceed contextual support. These findings highlight persistent challenges in modeling conversational implicature and motivate more context-sensitive evaluation frameworks.
- Abstract(参考訳): 人間の会話は会話の不適切さに大きく依存しており、話者は明示的に述べられるのではなく、示唆される意味を伝える。
最近の大きな言語モデルは強い会話の流布を示すが、解釈が社会的および文脈的手がかりを統合する推論に依存している場合、それは信頼できないままである。
本稿では,各質問の表面形状を固定したまま,現実的変化を分離するために,質問文中の会話不規則性に関する現実的推論を評価するベンチマークであるDRinQを紹介する。
スケーラブルな評価を支援するために,系統的変動を伴う質問文解釈インスタンスを生成する半自動パイプラインを提案する。
評価の全体にわたって、一貫した生成推論非対称性を見いだす: 最先端のモデルでは、ガイドされた時にプラウジブルな実用シナリオを生成できるが、推論時に意図された含意を回復できないことが多い。
より小さなモデルでは、構造化プロンプトは人間の判断との整合性を改善する。
人間の著者は、より安全で予測可能なコンテキストを生成する傾向があり、一方、モデルは、時には文脈的サポートを超える解釈を持つ様々なシナリオを生成する。
これらの知見は、会話の不適応をモデル化し、より文脈に敏感な評価フレームワークを動機づける上で、永続的な課題を浮き彫りにしている。
関連論文リスト
- When Contextual Inference Fails: Cancelability in Interactive Instruction Following [51.2195840589474]
私たちは、コンテキスト意味構築のためのインタラクティブなベンチマークであるBuild What I Meanを紹介します。
BWIMでは、モデルは文脈推論を行うか、小さな通信コストで明確化を要求することによって曖昧さを解決しなければならない。
我々は,不確実性の下でのパートナーブラインド過度明確化や質問逆推定などの準最適戦略を観察する。
論文 参考訳(メタデータ) (2026-03-20T14:46:59Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Evaluating Robustness of Dialogue Summarization Models in the Presence
of Naturally Occurring Variations [13.749495524988774]
実生活変動が最先端の対話要約モデルに与える影響を系統的に検討する。
発話レベルの摂動は、誤りや言語の変化によって個々の発話を変更するもので、対話レベルの摂動は非形式的交換を加えるものである。
細調整モデルと命令調整モデルの両方が入力のバリエーションの影響を受けており、後者はより感受性が高い。
論文 参考訳(メタデータ) (2023-11-15T05:11:43Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems [17.749995931459136]
言語的特徴に基づく指標は,人間の判断と良好な相関を維持し,解釈可能であることを示唆する。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
特徴の振る舞いはテストされたモデルの既知の特性と一致し、ドメイン間で類似していることが分かりました。
論文 参考訳(メタデータ) (2021-04-13T16:28:00Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。