論文の概要: Reference Games as a Testbed for the Alignment of Model Uncertainty and Clarification Requests
- arxiv url: http://arxiv.org/abs/2601.07820v1
- Date: Mon, 12 Jan 2026 18:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.768862
- Title: Reference Games as a Testbed for the Alignment of Model Uncertainty and Clarification Requests
- Title(参考訳): モデル不確実性と明確化要求の調整のためのテストベッドとしてのリファレンスゲーム
- Authors: Manar Ali, Judith Sieker, Sina Zarrieß, Hendrik Buschmeier,
- Abstract要約: 本研究では,ベースライン参照解決タスクと比較した3つの視覚言語モデルを評価する。
この結果は、たとえそのような単純なタスクであっても、モデルが内部の不確実性を認識し、それを適切な明確化行動に変換するのに苦慮していることを示唆している。
- 参考スコア(独自算出の注目度): 11.731398898326908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human conversation, both interlocutors play an active role in maintaining mutual understanding. When addressees are uncertain about what speakers mean, for example, they can request clarification. It is an open question for language models whether they can assume a similar addressee role, recognizing and expressing their own uncertainty through clarification. We argue that reference games are a good testbed to approach this question as they are controlled, self-contained, and make clarification needs explicit and measurable. To test this, we evaluate three vision-language models comparing a baseline reference resolution task to an experiment where the models are instructed to request clarification when uncertain. The results suggest that even in such simple tasks, models often struggle to recognize internal uncertainty and translate it into adequate clarification behavior. This demonstrates the value of reference games as testbeds for interaction qualities of (vision and) language models.
- Abstract(参考訳): ヒトの会話では、双方の対話者が相互理解を維持する上で積極的な役割を担っている。
演説者が話者の意味について不確実な場合は、例えば、明確化を要求することができる。
言語モデルにおいて、類似のアドレナの役割を担い、明確化を通じて自身の不確実性を認識、表現できるかどうかという問題である。
参照ゲームは、制御され、自己完結し、明確化の必要性を明確にし、測定できるように、この問題にアプローチするのに良いテストベッドである、と我々は主張する。
これをテストするために、ベースライン参照解決タスクとモデルに不確実な場合の明確化を指示する実験とを比較し、3つの視覚言語モデルを評価する。
この結果は、たとえそのような単純なタスクであっても、モデルが内部の不確実性を認識し、それを適切な明確化行動に変換するのに苦慮していることを示唆している。
これは、参照ゲームの価値を(ビジョンと)言語モデルの相互作用品質のテストベッドとして示している。
関連論文リスト
- Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - CLEAR-3K: Assessing Causal Explanatory Capabilities in Language Models [3.137688620241855]
CLEAR-3Kは、ある文が別の文を因果的に説明するかどうかを言語モデルが判断できるかどうかを評価するために設計された、3000のアサーション推論質問のデータセットである。
各質問は、意味的関連性と真の因果的説明的関係を区別するために、アサーションとアサーションのペアと挑戦言語モデルを示す。
論文 参考訳(メタデータ) (2025-06-20T17:35:36Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Ask Again, Then Fail: Large Language Models' Vacillations in Judgment [28.74246375289661]
我々は、現在の会話言語モデルが、フォローアップされた質問に直面すると、判断を揺るがすことが多いことを観察する。
我々は、この矛盾を定量化するための2つの指標とともに、textscFollow-up Questioning Mechanismを紹介した。
トレーニングベースのフレームワーク TextscUnwavering-FQ を開発した。
論文 参考訳(メタデータ) (2023-10-03T16:08:41Z) - Linguistic calibration through metacognition: aligning dialogue agent
responses with expected correctness [27.4964992583566]
チットチャットモデルが反応を通じてメタ認知機能を表現できるかどうかを解析する。
モデル内の表現は正確さの確率を正確に予測するために利用できることを示す。
論文 参考訳(メタデータ) (2020-12-30T00:12:36Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。