Fugu-MT 論文翻訳(概要): SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization

論文の概要: SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization

arxiv url: http://arxiv.org/abs/2505.11166v1
Date: Fri, 16 May 2025 12:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:14.877017
Title: SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
Title（参考訳）: SoLoPO:ショート・ツー・ロングの選好最適化によるLLMの長期能力のアンロック
Authors: Huashan Sun, Shengyi Liao, Yansen Han, Yu Bai, Yang Gao, Cheng Fu, Weizhou Shen, Fanqi Wan, Ming Yan, Ji Zhang, Fei Huang,
Abstract要約: 大規模言語モデル(LLM)は、現実世界の長文情報を効果的に活用する上で、依然として課題に直面している。我々は、$textbfS$h$textbfo$rt-to-$textbfLo$ngというフレームワークを提案する。
参考スコア（独自算出の注目度）: 44.188076211721025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite advances in pretraining with extended context lengths, large language models (LLMs) still face challenges in effectively utilizing real-world long-context information, primarily due to insufficient long-context alignment caused by data quality issues, training inefficiencies, and the lack of well-designed optimization objectives. To address these limitations, we propose a framework named $\textbf{S}$h$\textbf{o}$rt-to-$\textbf{Lo}$ng $\textbf{P}$reference $\textbf{O}$ptimization ($\textbf{SoLoPO}$), decoupling long-context preference optimization (PO) into two components: short-context PO and short-to-long reward alignment (SoLo-RA), supported by both theoretical and empirical evidence. Specifically, short-context PO leverages preference pairs sampled from short contexts to enhance the model's contextual knowledge utilization ability. Meanwhile, SoLo-RA explicitly encourages reward score consistency utilization for the responses when conditioned on both short and long contexts that contain identical task-relevant information. This facilitates transferring the model's ability to handle short contexts into long-context scenarios. SoLoPO is compatible with mainstream preference optimization algorithms, while substantially improving the efficiency of data construction and training processes. Experimental results show that SoLoPO enhances all these algorithms with respect to stronger length and domain generalization abilities across various long-context benchmarks, while achieving notable improvements in both computational and memory efficiency.
Abstract（参考訳）: 文脈長の拡張による事前トレーニングの進歩にもかかわらず、大規模言語モデル(LLM)は、主にデータ品質の問題、トレーニングの非効率性、十分に設計された最適化目標の欠如によって、現実世界の長期コンテキスト情報を効果的に活用する上で、依然として課題に直面している。これらの制限に対処するために、$\textbf{S}$h$\textbf{o}$rt-to-$\textbf{Lo}$ng $\textbf{P}$reference $\textbf{O}$ptimization ($\textbf{SoLoPO}$), long-context preference optimization (PO)を2つのコンポーネントに分解する。特に、短いコンテキストPOは、短いコンテキストからサンプリングされた好みのペアを活用して、モデルの文脈的知識利用能力を高める。一方、SoLo-RAは、同一のタスク関連情報を含む短コンテキストと長コンテキストの両方で条件付きで、応答に対する報酬スコアの整合性利用を明示的に奨励する。これにより、短いコンテキストを長いコンテキストのシナリオに渡すことができる。 SoLoPOは主流の好み最適化アルゴリズムと互換性があり、データ構築とトレーニングプロセスの効率を大幅に改善する。実験結果から,SoLoPOは様々な長期コンテキストベンチマークにおいて,これらのアルゴリズムの長大化とドメイン一般化能力の向上を図り,計算効率とメモリ効率の両面で顕著な改善を実現していることがわかった。

関連論文リスト

Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文参考訳（メタデータ） (2025-05-25T06:41:28Z)
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。 LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文参考訳（メタデータ） (2025-02-19T17:59:03Z)
Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文参考訳（メタデータ） (2025-02-17T05:02:25Z)
LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。 LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文参考訳（メタデータ） (2024-12-18T09:04:55Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文参考訳（メタデータ） (2024-10-28T17:50:42Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。