論文の概要: Natural Context Drift Undermines the Natural Language Understanding of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.01093v1
- Date: Mon, 01 Sep 2025 03:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.538604
- Title: Natural Context Drift Undermines the Natural Language Understanding of Large Language Models
- Title(参考訳): 自然文脈ドリフトは、大規模言語モデルの自然言語理解を損なう
- Authors: Yulong Wu, Viktor Schlegel, Riza Batista-Navarro,
- Abstract要約: そこで本研究では,現代QAベンチマークから自然に進化し,人間によって編集された読解路の変種を計算するためのフレームワークを提案する。
このフレームワークを用いて、6つのQAデータセットと8つの大規模言語モデルを公開トレーニングデータで評価する。
実験の結果、読み出し路が事前訓練中に遭遇したバージョンから自然に分岐するにつれて、LLMの性能は低下することがわかった。
- 参考スコア(独自算出の注目度): 17.3648708521395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does the natural evolution of context paragraphs affect question answering in generative Large Language Models (LLMs)? To investigate this, we propose a framework for curating naturally evolved, human-edited variants of reading passages from contemporary QA benchmarks and for analyzing LLM performance across a range of semantic similarity scores, which quantify how closely each variant aligns with content seen during pretraining. Using this framework, we evaluate six QA datasets and eight LLMs with publicly available training data. Our experiments reveal that LLM performance declines as reading passages naturally diverge from the versions encountered during pretraining-even when the question and all necessary information remains present at inference time. For instance, average model accuracy on BoolQ drops by over 30% from the highest to lowest similarity bins, with slopes exceeding 70 across several LLMs. These findings suggest that natural text evolution poses a significant challenge to the language understanding capabilities of LLMs.
- Abstract(参考訳): 文脈節の自然進化は、生成的大言語モデル(LLM)における質問応答にどのように影響するか?
そこで本研究では,現代QAベンチマークからの読解路の自然に進化した変種を解析し,各変種が事前学習中に見られる内容とどの程度密接に一致しているかを定量的に評価する枠組みを提案する。
このフレームワークを用いて、6つのQAデータセットと8つのLCMを公開トレーニングデータで評価する。
実験の結果,LLMの性能は,読み出し経路が事前学習時に遭遇するバージョンから自然に分岐するにつれて低下することが明らかとなった。
例えば、BoolQの平均モデル精度は、最も高い類似性ビンから最も低い類似性ビンまで30%以上低下する。
これらの結果は、自然言語の進化がLLMの言語理解能力に重大な課題をもたらすことを示唆している。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。