論文の概要: LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning
- arxiv url: http://arxiv.org/abs/2502.14644v2
- Date: Fri, 07 Mar 2025 14:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:34.293105
- Title: LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning
- Title(参考訳): LIFT:Long Input Fine-Tuningによる大規模言語モデルの長期理解の改善
- Authors: Yansheng Mao, Yufei Xu, Jiaqi Li, Fanxu Meng, Haotong Yang, Zilong Zheng, Xiyuan Wang, Muhan Zhang,
- Abstract要約: Long Input Fine-Tuning (LIFT)は、ロングコンテキストモデリングのための新しいフレームワークである。
LIFTは長い入力に基づいてモデルパラメータを動的に適応する。
Gated Memoryは、長期入力記憶とICLを自動的にバランスをとる特別なアテンションアダプタである。
- 参考スコア(独自算出の注目度): 45.30182393918228
- License:
- Abstract: Long context understanding remains challenging for large language models due to their limited context windows. This paper presents Long Input Fine-Tuning (LIFT), a novel framework for long-context modeling that can improve the long-context performance of arbitrary (short-context) LLMs by dynamically adapting model parameters based on the long input. Importantly, LIFT, rather than endlessly extending the context window size to accommodate increasingly longer inputs in context, chooses to store and absorb the long input in parameter. By fine-tuning the long input into model parameters, LIFT allows short-context LLMs to answer questions even when the required information is not provided in the context during inference. Furthermore, to enhance LIFT performance while maintaining the original in-context learning (ICL) capabilities, we introduce Gated Memory, a specialized attention adapter that automatically balances long input memorization and ICL. We provide a comprehensive analysis of the strengths and limitations of LIFT on long context understanding, offering valuable directions for future research.
- Abstract(参考訳): コンテキストウィンドウが限られているため、大きな言語モデルでは長いコンテキスト理解が依然として困難である。
本稿では,Long Input Fine-Tuning(LIFT)を提案する。これは長文モデリングのための新しいフレームワークで,長文入力に基づいてモデルパラメータを動的に適応させることで,任意の(短文)LLMの長文性能を向上させる。
重要なことは、LIFTはコンテキストウィンドウサイズを無限に拡張して、コンテキスト内のより長い入力を許容する代わりに、長い入力をパラメータに保存し、吸収する選択をする。
LIFTは、長い入力をモデルパラメータに微調整することで、推論中に必要な情報がコンテキストに提供されていない場合でも、短いコンテキストのLLMで質問に答えることを可能にする。
さらに,従来のコンテキスト内学習(ICL)機能を維持しながらLIFT性能を向上させるために,長期入力記憶とICLの自動バランスをとる特別なアテンダアダプタであるGated Memoryを導入する。
我々は,LIFTの長期的理解における強みと限界を包括的に分析し,今後の研究に有用な方向性を提供する。
関連論文リスト
- LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。
LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文 参考訳(メタデータ) (2025-02-19T17:59:03Z) - LCIRC: A Recurrent Compression Approach for Efficient Long-form Context and Query Dependent Modeling in LLMs [10.84210988032097]
本稿では,長文列をモデルの長さ制限を超えて効率的に処理できるLCIRC(Long-form Context Injection with Recurrent Compression)を提案する。
また、クエリ依存コンテキストモデリングを導入し、クエリ関連情報を選択的に圧縮し、モデルが最も関連するコンテンツを保持することを保証する。
論文 参考訳(メタデータ) (2025-02-10T04:02:18Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文 参考訳(メタデータ) (2024-12-18T09:04:55Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。