論文の概要: Correct-Detect: Balancing Performance and Ambiguity Through the Lens of Coreference Resolution in LLMs
- arxiv url: http://arxiv.org/abs/2509.14456v1
- Date: Wed, 17 Sep 2025 22:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.988045
- Title: Correct-Detect: Balancing Performance and Ambiguity Through the Lens of Coreference Resolution in LLMs
- Title(参考訳): 正解:LLMにおける干渉分解能レンズによるバランス性能と曖昧性
- Authors: Amber Shore, Russell Scheinberg, Ameeta Agrawal, So Young Lee,
- Abstract要約: LLM(Large Language Models)は、人間の言語能力の反映を目的とした言語モデルである。
LLMは、コア参照の曖昧さとコア参照のあいまいさの検出の両方において、最小限のプロンプトで優れた性能を実現することができることを示す。
我々は、CORRECT-DETECTトレードオフを提示する:モデルには、機能とデプロイの両方があり、暗黙的にデプロイするが、これらの2つの能力のバランスを成功させることは、依然として明白である。
- 参考スコア(独自算出の注目度): 8.879888552904598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are intended to reflect human linguistic competencies. But humans have access to a broad and embodied context, which is key in detecting and resolving linguistic ambiguities, even in isolated text spans. A foundational case of semantic ambiguity is found in the task of coreference resolution: how is a pronoun related to an earlier person mention? This capability is implicit in nearly every downstream task, and the presence of ambiguity at this level can alter performance significantly. We show that LLMs can achieve good performance with minimal prompting in both coreference disambiguation and the detection of ambiguity in coreference, however, they cannot do both at the same time. We present the CORRECT-DETECT trade-off: though models have both capabilities and deploy them implicitly, successful performance balancing these two abilities remains elusive.
- Abstract(参考訳): LLM(Large Language Models)は、人間の言語能力の反映を目的とした言語モデルである。
しかし、人間は広く具体化された文脈にアクセスできるため、孤立したテキストであっても言語的な曖昧さを検出し解決する上で鍵となる。
基本的意味的あいまいさのケースは、コア参照解決のタスクに見出される。
この機能は、ほぼすべてのダウンストリームタスクにおいて暗黙的であり、このレベルでの曖昧さの存在は、パフォーマンスを大きく変える可能性がある。
LLMは、コア参照の曖昧さとコア参照のあいまいさの検出の両方において、最小限のプロンプトで優れた性能を達成できるが、同時にはできない。
我々は、CORRECT-DETECTトレードオフを提示する:モデルには、機能とデプロイの両方があり、暗黙的にデプロイするが、これらの2つの能力のバランスを成功させることは、依然として明白である。
関連論文リスト
- Do Large Language Models Understand Word Senses? [30.57967629882536]
命令調整型大言語モデル(LLM)の単語センス曖昧化(WSD)機能について検討する。
GPT-4o や DeepSeek-V3 などの先行モデルでは,WSD システムと同等の性能が得られた。
その結果,LLMは文脈における単語の意味を最大98%の精度で説明できることがわかった。
論文 参考訳(メタデータ) (2025-09-17T11:11:27Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。