Fugu-MT 論文翻訳(概要): A Controlled Study on Long Context Extension and Generalization in LLMs

論文の概要: A Controlled Study on Long Context Extension and Generalization in LLMs

arxiv url: http://arxiv.org/abs/2409.12181v1
Date: Wed, 18 Sep 2024 17:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 16:21:44.880130
Title: A Controlled Study on Long Context Extension and Generalization in LLMs
Title（参考訳）: LLMの長期拡張と一般化に関する制御学的研究
Authors: Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush,
Abstract要約: 広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
参考スコア（独自算出の注目度）: 85.4758128256142
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development.
Abstract（参考訳）: 広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。しかし、データとモデルクラスの違いにより、これらのアプローチを比較することは困難であり、長文性能の評価方法や、それが標準評価と異なるかどうかの不確実性につながっている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。我々の研究は、長期の文脈行動に関するいくつかの洞察をもたらす。まず、長文タスクにおいても、汎用的なパフォーマンス指標としてパープレキシティが重要な役割を担っていることを再確認する。第二に、現在の近似的注意法は、長文タスクにおいて体系的に過小評価されている。最後に,厳密な微調整法が拡張範囲で一般的に有効であることを確認し,外挿は依然として困難である。すべてのコードベース、モデル、チェックポイントがオープンソースとして公開され、透明性を促進し、AI開発におけるこの重要な領域におけるさらなる研究を促進する。

関連論文リスト

Document Reconstruction Unlocks Scalable Long-Context RLVR [60.74632963522131]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の機能強化(長文)のための重要なパラダイムとなっている。我々は,LLMの長期的文脈能力を高めるための教師なしのアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。提案手法の有効性をRULERとLongBenchv2の2つのベンチマークで検証した。
論文参考訳（メタデータ） (2026-02-09T03:23:23Z)
EntropyLong: Effective Long-Context Training via Predictive Uncertainty [32.39649991665767]
長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyを提案する。提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
論文参考訳（メタデータ） (2025-09-26T02:38:08Z)
A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文参考訳（メタデータ） (2025-06-03T14:23:06Z)
LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams [4.917265821383127]
実世界のシナリオの冗長性に富む会話の性質を反映した,ライブストリームから派生した最初の音声長文データセットを構築した。我々は、これらのタスクにおける長文理解能力を評価するために、人気のあるLLMと特殊手法の両方を評価した。本研究は,現在の手法の限界を浮き彫りにし,長文理解の改善に向けた今後の方向性を示唆するものである。
論文参考訳（メタデータ） (2025-04-24T08:27:48Z)
On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data [1.2979906794584584]
訓練中に存在しないデータに対する時間的推論タスクにおけるLarge Language Model(LLM)の適用性はまだ検討されていない分野である。本稿では、構造化および半構造化された匿名化データに焦点をあてて、このトピックについて論じる。自然言語における17の共通時間的推論タスクを特定し,そのアルゴリズム的構成要素に着目した。
論文参考訳（メタデータ） (2025-04-10T10:48:42Z)
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文参考訳（メタデータ） (2025-02-28T07:15:12Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
How Effective Is Self-Consistency for Long-Context Problems? [18.633918831942434]
大規模言語モデル(LLM)の性能向上のために,自己整合性(SC)が実証されている。本研究では,LLMが位置バイアスに苦しむ長文シナリオにおけるSCの役割について検討した。
論文参考訳（メタデータ） (2024-11-02T01:52:42Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文参考訳（メタデータ） (2024-10-21T04:30:53Z)
ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文参考訳（メタデータ） (2024-10-11T17:57:06Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Structured Packing in LLM Training Improves Long Context Utilization [11.484631908171465]
本研究では,意味的相互依存を高めるための学習データの構造化について検討する。本研究では,SPLiCe(Structured Packing for Long Context)法を提案する。我々はSPLiCeを様々なサイズのモデルで実証的に検証した。
論文参考訳（メタデータ） (2023-12-28T16:25:52Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文参考訳（メタデータ） (2020-02-03T11:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。