論文の概要: Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements
- arxiv url: http://arxiv.org/abs/2506.01089v1
- Date: Sun, 01 Jun 2025 17:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.925578
- Title: Un-considering Contextual Information: Assessing LLMs' Understanding of Indexical Elements
- Title(参考訳): 文脈情報の非コンテクスト化:LLMによる指標要素の理解の評価
- Authors: Metehan Oguz, Yavuz Bakman, Duygu Nur Yaldiz,
- Abstract要約: 本稿では,大言語モデルがインデクティックスを英語でどのように解釈するかを初めて検討する。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, DeepSeek V3 などの先駆的 LLM の評価を行った。
以上の結果から,LSMは指標(I)で印象的な性能を示す一方で,他者(ここでは明日)と戦っていることが明らかとなった。
構文的手がかり(例: quotation)はLLMのパフォーマンスにいくつかの指標で寄与するが、他の指標では性能を低下させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performances in tasks related to coreference resolution. However, previous studies mostly assessed LLM performance on coreference resolution with nouns and third person pronouns. This study evaluates LLM performance on coreference resolution with indexical like I, you, here and tomorrow, which come with unique challenges due to their linguistic properties. We present the first study examining how LLMs interpret indexicals in English, releasing the English Indexical Dataset with 1600 multiple-choice questions. We evaluate pioneering LLMs, including GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, and DeepSeek V3. Our results reveal that LLMs exhibit an impressive performance with some indexicals (I), while struggling with others (you, here, tomorrow), and that syntactic cues (e.g. quotation) contribute to LLM performance with some indexicals, while they reduce performance with others. Code and data are available at: https://github.com/metehanoguzz/LLMs-Indexicals-English.
- Abstract(参考訳): LLM(Large Language Models)は、コア参照解決に関連するタスクにおいて、素晴らしいパフォーマンスを示す。
しかし, 前回の研究では, 名詞と三人称代名詞の相乗分解能について, LLMの性能を主に評価した。
本研究は,私,あなた,ここ,明日など,言語的特徴から独特な課題が伴う指標的基準分解能のLLM性能を評価する。
本稿では,LLMがインデクティカルを英語で解釈し,1600問の複数質問を含むインデクティカルデータセットを公開する方法について検討する。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, DeepSeek V3 などの先駆的 LLM の評価を行った。
以上の結果から,LLMは指標的性能に優れており(I),他の指標と苦労しながら(ここでも明日も),構文的手がかり(e.g. quotation)が指標的性能に寄与し,他の指標による性能が低下することが明らかとなった。
コードとデータは、https://github.com/metehanoguzz/LLMs-Indexicals- Englishで入手できる。
関連論文リスト
- Self-Correction Makes LLMs Better Parsers [19.20952673157709]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な成功を収めている。
近年の研究では、深い言語理解に不可欠な基本的なNLPタスクを実行する上で、依然として課題に直面していることが示唆されている。
本稿では,既存の木バンクからの文法規則を活かした自己補正手法を提案する。
論文 参考訳(メタデータ) (2025-04-19T03:50:59Z) - Better Benchmarking LLMs for Zero-Shot Dependency Parsing [18.079016557290338]
本稿では,現在最先端のオープンウェイトLLMを,入力文にアクセスできないベースラインと比較することによって検討する。
その結果, 試験されたLLMのほとんどは, 最良の非インフォームベースラインを達成できないことがわかった。
論文 参考訳(メタデータ) (2025-02-28T09:08:57Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。