論文の概要: LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.13626v1
- Date: Wed, 18 Dec 2024 09:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:26.850927
- Title: LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning
- Title(参考訳): LIFT:Long Input Fine-TuningによるLong Context理解の改善
- Authors: Yansheng Mao, Jiaqi Li, Fanxu Meng, Jing Xiong, Zilong Zheng, Muhan Zhang,
- Abstract要約: 本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
- 参考スコア(独自算出の注目度): 35.31849814789343
- License:
- Abstract: Long context understanding remains challenging for large language models due to their limited context windows. This paper introduces Long Input Fine-Tuning (LIFT) for long context modeling, a novel framework that enhances LLM performance on long-context tasks by adapting model parameters to the context at test time. LIFT enables efficient processing of lengthy inputs without the computational burden of offline long-context adaptation, and can improve the long-context capabilities of arbitrary short-context models. The framework is further enhanced by integrating in-context learning and pre-LIFT supervised fine-tuning. The combination of in-context learning and LIFT enables short-context models like Llama 3 to handle arbitrarily long contexts and consistently improves their performance on popular long-context benchmarks like LooGLE and LongBench. We also provide a comprehensive analysis of the strengths and limitations of LIFT on long context understanding, offering valuable directions for future research.
- Abstract(参考訳): コンテキストウィンドウが限られているため、大きな言語モデルでは長いコンテキスト理解が依然として困難である。
本稿では,Long Input Fine-Tuning(LIFT)を長期コンテキストモデリングに適用する。これは,テスト時にコンテキストにモデルパラメータを適用することで,長期コンテキストタスクにおけるLLM性能を向上させる新しいフレームワークである。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にし、任意の短文モデルの長文機能を改善することができる。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
インコンテキスト学習とLIFTの組み合わせにより、Llama 3のような短コンテキストモデルでは、任意に長いコンテキストを処理でき、LooGLEやLongBenchといった一般的な長コンテキストベンチマークのパフォーマンスを一貫して改善することができる。
また, LIFTの長期的理解における強みと限界を包括的に分析し, 今後の研究に有用な方向性を提供する。
関連論文リスト
- LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning [45.30182393918228]
Long Input Fine-Tuning (LIFT)は、ロングコンテキストモデリングのための新しいフレームワークである。
LIFTは長い入力に基づいてモデルパラメータを動的に適応する。
Gated Memoryは、長期入力記憶とICLを自動的にバランスをとる特別なアテンションアダプタである。
論文 参考訳(メタデータ) (2025-02-20T15:32:24Z) - LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。
LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文 参考訳(メタデータ) (2025-02-19T17:59:03Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。