論文の概要: It Depends: Resolving Referential Ambiguity in Minimal Contexts with Commonsense Knowledge
- arxiv url: http://arxiv.org/abs/2509.16107v1
- Date: Fri, 19 Sep 2025 15:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.237931
- Title: It Depends: Resolving Referential Ambiguity in Minimal Contexts with Commonsense Knowledge
- Title(参考訳): 依存する:コモンセンス知識を用いた最小文脈における参照あいまいさの解消
- Authors: Lukas Ellinger, Georg Groh,
- Abstract要約: マルチターン会話における参照あいまいさを解決するために,大言語モデルがコモンセンスを活用できるかどうかを検討する。
DeepSeek v3, GPT-4o, Qwen3-32B, GPT-4o-mini, Llama-3.1-8B を LLM-as-Judge および人間のアノテーションを用いて試験した。
- 参考スコア(独自算出の注目度): 3.340255811686752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ambiguous words or underspecified references require interlocutors to resolve them, often by relying on shared context and commonsense knowledge. Therefore, we systematically investigate whether Large Language Models (LLMs) can leverage commonsense to resolve referential ambiguity in multi-turn conversations and analyze their behavior when ambiguity persists. Further, we study how requests for simplified language affect this capacity. Using a novel multilingual evaluation dataset, we test DeepSeek v3, GPT-4o, Qwen3-32B, GPT-4o-mini, and Llama-3.1-8B via LLM-as-Judge and human annotations. Our findings indicate that current LLMs struggle to resolve ambiguity effectively: they tend to commit to a single interpretation or cover all possible references, rather than hedging or seeking clarification. This limitation becomes more pronounced under simplification prompts, which drastically reduce the use of commonsense reasoning and diverse response strategies. Fine-tuning Llama-3.1-8B with Direct Preference Optimization substantially improves ambiguity resolution across all request types. These results underscore the need for advanced fine-tuning to improve LLMs' handling of ambiguity and to ensure robust performance across diverse communication styles.
- Abstract(参考訳): 曖昧な言葉や不明確でない参照は、しばしば共有された文脈と常識の知識に頼って、それらを解決するためにインターロケーターを必要とします。
そこで我々は,Large Language Models (LLMs) が,マルチターン会話における参照あいまいさを解消し,あいまいさが持続する際の行動を分析するためにコモンセンスを活用できるかどうかを体系的に検討した。
さらに,簡略化された言語に対する要求がこの能力にどのように影響するかを検討する。
新たな多言語評価データセットを用いて,LLM-as-Judgeおよび人間のアノテーションを用いて,DeepSeek v3,GPT-4o,Qwen3-32B,GPT-4o-mini,Llama-3.1-8Bをテストする。
その結果,現在のLSMは曖昧さを効果的に解決するのに苦労していることが明らかとなった。
この制限は、単純化のプロンプトの下でより顕著になり、コモンセンス推論と多様な応答戦略の使用を大幅に削減する。
直接優先度最適化による微調整のLlama-3.1-8Bは、全ての要求タイプ間のあいまいさの解決を大幅に改善する。
これらの結果は、LLMのあいまいさの扱いを改善し、多様な通信スタイルで堅牢な性能を確保するための高度な微調整の必要性を浮き彫りにしている。
関連論文リスト
- Reasoning-enhanced Query Understanding through Decomposition and Interpretation [130.19204432111277]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。
我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。
あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文 参考訳(メタデータ) (2025-07-30T21:50:19Z) - Simplifications are Absolutists: How Simplified Language Reduces Word Sense Awareness in LLM-Generated Definitions [2.6217304977339473]
目的とする3つのグループ(Normal, Simple, ELI5)の同義語定義品質に,単純化がどのような影響を及ぼすかを検討する。
本結果より, 簡易化は多義性を無視して定義完全性を著しく低下させ, 誤解のリスクを増大させることが示唆された。
これらの知見は、すべての学習者に対して信頼性のある文脈対応の定義を保証するために、教育的NLPにおけるシンプルさと完全さのバランスをとる必要があることを強調している。
論文 参考訳(メタデータ) (2025-07-16T07:25:27Z) - Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs? [2.3749120526936465]
本研究では,近年の大型言語モデル (LLM) が,6つの類型的多様言語において,相対的節のアタッチメントのあいまいさをナビゲートする方法について検討する。
論文 参考訳(メタデータ) (2025-03-13T19:44:15Z) - Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering [15.342415325821063]
自然言語の曖昧さは、オープンドメインの質問応答に使用される大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,明示的曖昧化戦略の効果を計測することに集中して,市販のLLM性能と数発のLLM性能を比較した。
本研究では, 難解な問合せタスクにおいて, LLM性能を向上させるために, 簡単な, トレーニング不要, トークンレベルの曖昧さを効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2024-11-19T10:27:26Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。