論文の概要: LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.13922v3
- Date: Sat, 01 Mar 2025 08:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:57.570460
- Title: LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization
- Title(参考訳): LongPO:Long-to-Long Preference Optimizationによる大規模言語モデルの長期自己進化
- Authors: Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing,
- Abstract要約: LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。
LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
- 参考スコア(独自算出の注目度): 49.37607974207405
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, LongPO-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales. Our code is available at https://github.com/DAMO-NLP-SG/LongPO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前訓練とアライメントを通じて顕著な機能を示した。
しかし、長文のアライメントが不十分なため、長文のシナリオでは、優れた短文のLLMが不足する可能性がある。
このアライメントプロセスは、拡張コンテキストに対する人間のアノテーションの不実用性と、短文と長文のパフォーマンスのバランスが難しいため、依然として困難である。
これらの課題に対処するため、LongPOを導入し、短文LLMを自己開発し、短文機能を内部で転送することで、長文タスクに優れるようにする。
LongPO は LLM を用いて、それぞれ長文入力の同一命令に対して生成されたペア応答と、圧縮された短文入力からなる自己生成した短文嗜好データから学習する。
この選好は、短いコンテキストアライメント中に栽培されるLLMの機能とポテンシャルを明らかにし、アンダー・アライメントのロング・コンテクストのシナリオでは減少する可能性がある。
さらに、LongPOは、長いコンテキストアライメント中の短コンテキスト性能低下を軽減するために、短から長のKL制約を組み込んでいる。
Mistral-7B-Instruct-v0.2を128Kから512Kまでのコンテキスト長に適用すると、LongPOはショートコンテクストのパフォーマンスを完全に維持し、長いコンテクストタスクと短コンテクストタスクの両方において単純なSFTとDPOよりも大幅に向上する。
特に、LongPOで訓練されたモデルは、広範囲の長文アノテーションとより大きなパラメータスケールを含む優れたLLM(例えば、GPT-4-128K)に匹敵する、あるいはそれ以上の長文ベンチマークで結果が得られる。
私たちのコードはhttps://github.com/DAMO-NLP-SG/LongPOで公開されています。
関連論文リスト
- LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning [45.30182393918228]
Long Input Fine-Tuning (LIFT)は、ロングコンテキストモデリングのための新しいフレームワークである。
LIFTは長い入力に基づいてモデルパラメータを動的に適応する。
Gated Memoryは、長期入力記憶とICLを自動的にバランスをとる特別なアテンションアダプタである。
論文 参考訳(メタデータ) (2025-02-20T15:32:24Z) - LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文 参考訳(メタデータ) (2024-12-18T09:04:55Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。