論文の概要: EMODIS: A Benchmark for Context-Dependent Emoji Disambiguation in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07193v1
- Date: Mon, 10 Nov 2025 15:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.320671
- Title: EMODIS: A Benchmark for Context-Dependent Emoji Disambiguation in Large Language Models
- Title(参考訳): EMODIS:大規模言語モデルにおける文脈依存型絵文字の曖昧さのベンチマーク
- Authors: Jiacheng Huang, Ning Yu, Xiaoyin Yi,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界の通信環境にますます展開されているが、文脈に依存したあいまいさを解決できる能力はまだ未定である。
我々は,最小かつコントラッシブな文脈下で曖昧な絵文字表現を解釈するLLMの能力を評価するための新しいベンチマークEMODISを提案する。
- 参考スコア(独自算出の注目度): 6.145223237741804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world communication settings, yet their ability to resolve context-dependent ambiguity remains underexplored. In this work, we present EMODIS, a new benchmark for evaluating LLMs' capacity to interpret ambiguous emoji expressions under minimal but contrastive textual contexts. Each instance in EMODIS comprises an ambiguous sentence containing an emoji, two distinct disambiguating contexts that lead to divergent interpretations, and a specific question that requires contextual reasoning. We evaluate both open-source and API-based LLMs, and find that even the strongest models frequently fail to distinguish meanings when only subtle contextual cues are present. Further analysis reveals systematic biases toward dominant interpretations and limited sensitivity to pragmatic contrast. EMODIS provides a rigorous testbed for assessing contextual disambiguation, and highlights the gap in semantic reasoning between humans and LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界の通信環境にますます展開されているが、文脈に依存したあいまいさを解決できる能力はまだ未定である。
本研究では,最小かつコントラスト的な文脈下で不明瞭な絵文字表現を解釈するLLMの能力を評価するための新しいベンチマークであるEMODISを提案する。
EMODISの各例は、絵文字を含む曖昧な文と、異なる解釈につながる2つの明確な曖昧な文脈と、文脈的推論を必要とする特定の質問からなる。
オープンソースとAPIベースのLLMの両方を評価し、最強のモデルでさえ、微妙な文脈的手がかりのみが存在する場合に、意味を区別できないことがよくあります。
さらなる分析により、支配的な解釈に対する体系的なバイアスと、実用的コントラストに対する限定的な感受性が明らかになる。
EMODISは文脈の曖昧さを評価するための厳密なテストベッドを提供し、人間とLLM間の意味論的推論のギャップを強調している。
関連論文リスト
- Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth [21.092167028989632]
ドライブロロジーは「深みのあるナンセンス」によって特徴づけられる言語現象である
我々は、英語、マンダリン、スペイン語、フランス語、日本語、韓国語で、1200以上の精巧にキュレートされ、多様なサンプルのベンチマークデータセットを構築した。
現在の大規模言語モデル (LLM) は,ドライブロジカルテキストの階層的意味論の理解に一貫して失敗している。
論文 参考訳(メタデータ) (2025-09-04T03:58:55Z) - Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity [16.065963688326242]
中国語の曖昧な物語文に遭遇した大言語モデル(LLM)の信頼性について検討する。
我々は、文脈とそれに対応するあいまいなペアであいまいな文を収集し、生成することで、ベンチマークデータセットを作成しました。
あいまいさに対処する際, LLMに顕著な脆弱性がみられ, ヒトとは大きく異なる挙動がみられた。
論文 参考訳(メタデータ) (2025-07-30T21:50:19Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である
LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。
本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文 参考訳(メタデータ) (2025-05-18T20:53:41Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpretation modeling: Social grounding of sentences by reasoning over
their implicit moral judgments [24.133419857271505]
単一のゴールド標準解釈はほとんど存在せず、自然言語処理における従来の仮定に挑戦する。
この研究は、文の基本的意味論のいくつかの解釈をモデル化することを含む解釈モデリング(IM)タスクを導入する。
実験と分析をサポートするために、第一種IMデータセットがキュレーションされている。
論文 参考訳(メタデータ) (2023-11-27T07:50:55Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。