論文の概要: Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements
- arxiv url: http://arxiv.org/abs/2506.01089v1
- Date: Sun, 01 Jun 2025 17:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.925578
- Title: Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements
- Title(参考訳): 文脈情報の非コンテクスト化:LLMによる指標要素の理解の評価
- Authors: Metehan Oguz, Yavuz Bakman, Duygu Nur Yaldiz,
- Abstract要約: 本稿では,大言語モデルがインデクティックスを英語でどのように解釈するかを初めて検討する。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, DeepSeek V3 などの先駆的 LLM の評価を行った。
以上の結果から,LSMは指標(I)で印象的な性能を示す一方で,他者(ここでは明日)と戦っていることが明らかとなった。
構文的手がかり(例: quotation)はLLMのパフォーマンスにいくつかの指標で寄与するが、他の指標では性能を低下させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performances in tasks related to coreference resolution. However, previous studies mostly assessed LLM performance on coreference resolution with nouns and third person pronouns. This study evaluates LLM performance on coreference resolution with indexical like I, you, here and tomorrow, which come with unique challenges due to their linguistic properties. We present the first study examining how LLMs interpret indexicals in English, releasing the English Indexical Dataset with 1600 multiple-choice questions. We evaluate pioneering LLMs, including GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, and DeepSeek V3. Our results reveal that LLMs exhibit an impressive performance with some indexicals (I), while struggling with others (you, here, tomorrow), and that syntactic cues (e.g. quotation) contribute to LLM performance with some indexicals, while they reduce performance with others. Code and data are available at: https://github.com/metehanoguzz/LLMs-Indexicals-English.
- Abstract(参考訳): LLM(Large Language Models)は、コア参照解決に関連するタスクにおいて、素晴らしいパフォーマンスを示す。
しかし, 前回の研究では, 名詞と三人称代名詞の相乗分解能について, LLMの性能を主に評価した。
本研究は,私,あなた,ここ,明日など,言語的特徴から独特な課題が伴う指標的基準分解能のLLM性能を評価する。
本稿では,LLMがインデクティカルを英語で解釈し,1600問の複数質問を含むインデクティカルデータセットを公開する方法について検討する。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, DeepSeek V3 などの先駆的 LLM の評価を行った。
以上の結果から,LLMは指標的性能に優れており(I),他の指標と苦労しながら(ここでも明日も),構文的手がかり(e.g. quotation)が指標的性能に寄与し,他の指標による性能が低下することが明らかとなった。
コードとデータは、https://github.com/metehanoguzz/LLMs-Indexicals- Englishで入手できる。
関連論文リスト
- Self-Correction Makes LLMs Better Parsers [19.20952673157709]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な成功を収めている。
近年の研究では、深い言語理解に不可欠な基本的なNLPタスクを実行する上で、依然として課題に直面していることが示唆されている。
本稿では,既存の木バンクからの文法規則を活かした自己補正手法を提案する。
論文 参考訳(メタデータ) (2025-04-19T03:50:59Z) - Better Benchmarking LLMs for Zero-Shot Dependency Parsing [18.079016557290338]
本稿では,現在最先端のオープンウェイトLLMを,入力文にアクセスできないベースラインと比較することによって検討する。
その結果, 試験されたLLMのほとんどは, 最良の非インフォームベースラインを達成できないことがわかった。
論文 参考訳(メタデータ) (2025-02-28T09:08:57Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。