論文の概要: When Long Helps Short: How Context Length in Supervised Fine-tuning Affects Behavior of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.18762v3
- Date: Fri, 03 Oct 2025 01:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.988724
- Title: When Long Helps Short: How Context Length in Supervised Fine-tuning Affects Behavior of Large Language Models
- Title(参考訳): 短命に長引くとき:大規模言語モデルの行動に及ぼす教師付き微調整の文脈長の影響
- Authors: Yingming Zheng, Hanqi Li, Kai Yu, Lu Chen,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) タスクにまたがって優れた性能を達成している。
現実世界のアプリケーションは、より長いコンテキストウインドウをますます求めているため、長いコンテキストデータに対する事前トレーニングと教師付き微調整(SFT)が一般的なアプローチとなっている。
SFTデータ長が短時間のタスクにおけるLLMの挙動にどう影響するかを系統的に検討する。
長文事前学習による劣化に対して,長文SFTは短文性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 16.12256921806929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive performance across natural language processing (NLP) tasks. As real-world applications increasingly demand longer context windows, continued pretraining and supervised fine-tuning (SFT) on long-context data has become a common approach. While the effects of data length in continued pretraining have been extensively studied, their implications for SFT remain unclear. In this work, we systematically investigate how SFT data length influences LLM behavior on short-context tasks. Counterintuitively, we find that long-context SFT improves short-context performance, contrary to the commonly observed degradation from long-context pretraining. To uncover the underlying mechanisms of this phenomenon, we first decouple and analyze two key components, Multi-Head Attention (MHA) and Feed-Forward Network (FFN), and show that both independently benefit from long-context SFT. We further study their interaction and reveal a knowledge preference bias: long-context SFT promotes contextual knowledge, while short-context SFT favors parametric knowledge, making exclusive reliance on long-context SFT suboptimal. Finally, we demonstrate that hybrid training mitigates this bias, offering explainable guidance for fine-tuning LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理 (NLP) タスクにまたがって優れた性能を達成している。
現実世界のアプリケーションは、より長いコンテキストウインドウをますます求めているため、長いコンテキストデータに対する事前トレーニングと教師付き微調整(SFT)が一般的なアプローチとなっている。
継続事前訓練におけるデータ長の影響は広く研究されているが、SFTに対する影響はいまだ不明である。
本研究では,SFTデータ長が短時間作業におけるLLMの挙動にどう影響するかを系統的に検討する。
長文事前学習による劣化とは対照的に,長文SFTでは短文性能が向上することがわかった。
この現象の基盤となるメカニズムを明らかにするために、まず、MHA(Multi-Head Attention)とFFN(Feed-Forward Network)という2つの重要なコンポーネントを分離して分析し、両者が長文SFTから独立して恩恵を受けることを示す。
長文 SFT は文脈的知識を促進するが、短文 SFT はパラメトリック的知識を好んでおり、長文 SFT の部分最適化に排他的に依存する。
最後に、ハイブリッドトレーニングがこのバイアスを軽減することを実証し、微調整LDMのための説明可能なガイダンスを提供する。
関連論文リスト
- Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning [45.30182393918228]
Long Input Fine-Tuning (LIFT)は、ロングコンテキストモデリングのための新しいフレームワークである。
LIFTは長い入力に基づいてモデルパラメータを動的に適応する。
Gated Memoryは、長期入力記憶とICLを自動的にバランスをとる特別なアテンションアダプタである。
論文 参考訳(メタデータ) (2025-02-20T15:32:24Z) - LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文 参考訳(メタデータ) (2025-02-18T06:40:23Z) - LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文 参考訳(メタデータ) (2024-12-18T09:04:55Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。
そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:09Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。