論文の概要: It Depends: Resolving Referential Ambiguity in Minimal Contexts with Commonsense Knowledge
- arxiv url: http://arxiv.org/abs/2509.16107v1
- Date: Fri, 19 Sep 2025 15:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.237931
- Title: It Depends: Resolving Referential Ambiguity in Minimal Contexts with Commonsense Knowledge
- Title(参考訳): 依存する:コモンセンス知識を用いた最小文脈における参照あいまいさの解消
- Authors: Lukas Ellinger, Georg Groh,
- Abstract要約: マルチターン会話における参照あいまいさを解決するために,大言語モデルがコモンセンスを活用できるかどうかを検討する。
DeepSeek v3, GPT-4o, Qwen3-32B, GPT-4o-mini, Llama-3.1-8B を LLM-as-Judge および人間のアノテーションを用いて試験した。
- 参考スコア(独自算出の注目度): 3.340255811686752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ambiguous words or underspecified references require interlocutors to resolve them, often by relying on shared context and commonsense knowledge. Therefore, we systematically investigate whether Large Language Models (LLMs) can leverage commonsense to resolve referential ambiguity in multi-turn conversations and analyze their behavior when ambiguity persists. Further, we study how requests for simplified language affect this capacity. Using a novel multilingual evaluation dataset, we test DeepSeek v3, GPT-4o, Qwen3-32B, GPT-4o-mini, and Llama-3.1-8B via LLM-as-Judge and human annotations. Our findings indicate that current LLMs struggle to resolve ambiguity effectively: they tend to commit to a single interpretation or cover all possible references, rather than hedging or seeking clarification. This limitation becomes more pronounced under simplification prompts, which drastically reduce the use of commonsense reasoning and diverse response strategies. Fine-tuning Llama-3.1-8B with Direct Preference Optimization substantially improves ambiguity resolution across all request types. These results underscore the need for advanced fine-tuning to improve LLMs' handling of ambiguity and to ensure robust performance across diverse communication styles.
- Abstract(参考訳): 曖昧な言葉や不明確でない参照は、しばしば共有された文脈と常識の知識に頼って、それらを解決するためにインターロケーターを必要とします。
そこで我々は,Large Language Models (LLMs) が,マルチターン会話における参照あいまいさを解消し,あいまいさが持続する際の行動を分析するためにコモンセンスを活用できるかどうかを体系的に検討した。
さらに,簡略化された言語に対する要求がこの能力にどのように影響するかを検討する。
新たな多言語評価データセットを用いて,LLM-as-Judgeおよび人間のアノテーションを用いて,DeepSeek v3,GPT-4o,Qwen3-32B,GPT-4o-mini,Llama-3.1-8Bをテストする。
その結果,現在のLSMは曖昧さを効果的に解決するのに苦労していることが明らかとなった。
この制限は、単純化のプロンプトの下でより顕著になり、コモンセンス推論と多様な応答戦略の使用を大幅に削減する。
直接優先度最適化による微調整のLlama-3.1-8Bは、全ての要求タイプ間のあいまいさの解決を大幅に改善する。
これらの結果は、LLMのあいまいさの扱いを改善し、多様な通信スタイルで堅牢な性能を確保するための高度な微調整の必要性を浮き彫りにしている。
関連論文リスト
- ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models [32.099137908375546]
ClarifyMT-Benchは、大規模言語モデル(LLM)におけるマルチターン明確化のためのベンチマークである。
多様なあいまいさソースと相互作用パターンをキャプチャする6,120個のマルチターン対話を構築した。
textbfClarifyAgentは,認知,予測,追跡,計画に明確化を分解するエージェントアプローチである。
論文 参考訳(メタデータ) (2025-12-24T11:39:00Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [130.19204432111277]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。
我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。
あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文 参考訳(メタデータ) (2025-07-30T21:50:19Z) - Simplifications are Absolutists: How Simplified Language Reduces Word Sense Awareness in LLM-Generated Definitions [2.6217304977339473]
目的とする3つのグループ(Normal, Simple, ELI5)の同義語定義品質に,単純化がどのような影響を及ぼすかを検討する。
本結果より, 簡易化は多義性を無視して定義完全性を著しく低下させ, 誤解のリスクを増大させることが示唆された。
これらの知見は、すべての学習者に対して信頼性のある文脈対応の定義を保証するために、教育的NLPにおけるシンプルさと完全さのバランスをとる必要があることを強調している。
論文 参考訳(メタデータ) (2025-07-16T07:25:27Z) - Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である
LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。
本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文 参考訳(メタデータ) (2025-05-18T20:53:41Z) - Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs? [2.3749120526936465]
本研究では,近年の大型言語モデル (LLM) が,6つの類型的多様言語において,相対的節のアタッチメントのあいまいさをナビゲートする方法について検討する。
論文 参考訳(メタデータ) (2025-03-13T19:44:15Z) - Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。
本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2024-11-19T10:27:26Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。