論文の概要: SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.11166v1
- Date: Fri, 16 May 2025 12:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.877017
- Title: SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
- Title(参考訳): SoLoPO:ショート・ツー・ロングの選好最適化によるLLMの長期能力のアンロック
- Authors: Huashan Sun, Shengyi Liao, Yansen Han, Yu Bai, Yang Gao, Cheng Fu, Weizhou Shen, Fanqi Wan, Ming Yan, Ji Zhang, Fei Huang,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界の長文情報を効果的に活用する上で、依然として課題に直面している。
我々は、$textbfS$h$textbfo$rt-to-$textbfLo$ngというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.188076211721025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in pretraining with extended context lengths, large language models (LLMs) still face challenges in effectively utilizing real-world long-context information, primarily due to insufficient long-context alignment caused by data quality issues, training inefficiencies, and the lack of well-designed optimization objectives. To address these limitations, we propose a framework named $\textbf{S}$h$\textbf{o}$rt-to-$\textbf{Lo}$ng $\textbf{P}$reference $\textbf{O}$ptimization ($\textbf{SoLoPO}$), decoupling long-context preference optimization (PO) into two components: short-context PO and short-to-long reward alignment (SoLo-RA), supported by both theoretical and empirical evidence. Specifically, short-context PO leverages preference pairs sampled from short contexts to enhance the model's contextual knowledge utilization ability. Meanwhile, SoLo-RA explicitly encourages reward score consistency utilization for the responses when conditioned on both short and long contexts that contain identical task-relevant information. This facilitates transferring the model's ability to handle short contexts into long-context scenarios. SoLoPO is compatible with mainstream preference optimization algorithms, while substantially improving the efficiency of data construction and training processes. Experimental results show that SoLoPO enhances all these algorithms with respect to stronger length and domain generalization abilities across various long-context benchmarks, while achieving notable improvements in both computational and memory efficiency.
- Abstract(参考訳): 文脈長の拡張による事前トレーニングの進歩にもかかわらず、大規模言語モデル(LLM)は、主にデータ品質の問題、トレーニングの非効率性、十分に設計された最適化目標の欠如によって、現実世界の長期コンテキスト情報を効果的に活用する上で、依然として課題に直面している。
これらの制限に対処するために、$\textbf{S}$h$\textbf{o}$rt-to-$\textbf{Lo}$ng $\textbf{P}$reference $\textbf{O}$ptimization ($\textbf{SoLoPO}$), long-context preference optimization (PO)を2つのコンポーネントに分解する。
特に、短いコンテキストPOは、短いコンテキストからサンプリングされた好みのペアを活用して、モデルの文脈的知識利用能力を高める。
一方、SoLo-RAは、同一のタスク関連情報を含む短コンテキストと長コンテキストの両方で条件付きで、応答に対する報酬スコアの整合性利用を明示的に奨励する。
これにより、短いコンテキストを長いコンテキストのシナリオに渡すことができる。
SoLoPOは主流の好み最適化アルゴリズムと互換性があり、データ構築とトレーニングプロセスの効率を大幅に改善する。
実験結果から,SoLoPOは様々な長期コンテキストベンチマークにおいて,これらのアルゴリズムの長大化とドメイン一般化能力の向上を図り,計算効率とメモリ効率の両面で顕著な改善を実現していることがわかった。
関連論文リスト
- LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文 参考訳(メタデータ) (2024-12-18T09:04:55Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。