論文の概要: SFT-GO: Supervised Fine-Tuning with Group Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15021v1
- Date: Tue, 17 Jun 2025 23:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.507028
- Title: SFT-GO: Supervised Fine-Tuning with Group Optimization for Large Language Models
- Title(参考訳): SFT-GO:大規模言語モデルのグループ最適化によるファインチューニング
- Authors: Gyuhak Kim, Sumiran Singh Thakur, Su Min Park, Wei Wei, Yujia Bao,
- Abstract要約: Supervised Fine-tuning (SFT) は、人間の期待や特定の下流タスクに合わせて大きな言語モデル(LLM)を調整するための重要なステップとなっている。
既存のSFTメソッドは、各トレーニングインスタンスを一様シーケンスとして扱い、それらの関連性に関係なく、すべてのトークンに等しく重要である。
我々は,グループ最適化によるスーパービジョンファインチューニング(SFT-GO)を導入し,その重要性に基づいてトークンのグループを別々に扱う新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.866570688304153
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Supervised fine-tuning (SFT) has become an essential step in tailoring large language models (LLMs) to align with human expectations and specific downstream tasks. However, existing SFT methods typically treat each training instance as a uniform sequence, giving equal importance to all tokens regardless of their relevance. This overlooks the fact that only a subset of tokens often contains critical, task-specific information. To address this limitation, we introduce Supervised Fine-Tuning with Group Optimization (SFT-GO), a novel approach that treats groups of tokens differently based on their importance.SFT-GO groups tokens in each sample based on their importance values and optimizes the LLM using a weighted combination of the worst-group loss and the standard cross-entropy loss. This mechanism adaptively emphasizes the most challenging token groups and guides the model to better handle different group distributions, thereby improving overall learning dynamics. We provide a theoretical analysis of SFT-GO's convergence rate, demonstrating its efficiency. Empirically, we apply SFT-GO with three different token grouping strategies and show that models trained with SFT-GO consistently outperform baseline approaches across popular LLM benchmarks. These improvements hold across various datasets and base models, demonstrating the robustness and the effectiveness of our method.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、人間の期待や特定の下流タスクに合わせて大きな言語モデル(LLM)を調整するための重要なステップとなっている。
しかしながら、既存のSFTメソッドは通常、各トレーニングインスタンスを一様シーケンスとして扱い、それらの関連性に関係なく、すべてのトークンに等しく重要である。
これは、トークンのサブセットだけが重要なタスク固有の情報を含んでいることが多いという事実を見落としている。
重要度に基づいてトークン群を別々に扱う新しいアプローチであるSupervised Fine-Tuning with Group Optimization (SFT-GO)を導入し、最悪のグループ損失と標準的なクロスエントロピー損失の重み付けを組み合わせたLLMを最適化する。
このメカニズムは、最も困難なトークングループを適応的に強調し、異なるグループの分布をよりよく扱うためにモデルを導くことで、全体的な学習ダイナミクスを改善する。
我々は,SFT-GOの収束速度の理論解析を行い,その効率を実証した。
実験的に,SFT-GOを3つの異なるトークングループ化戦略で適用し,SFT-GOでトレーニングしたモデルがLLMベンチマークのベースラインアプローチを一貫して上回っていることを示す。
これらの改善は、様々なデータセットやベースモデルにまたがって行われ、我々の手法の堅牢性と有効性を示す。
関連論文リスト
- Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality [10.74213785908381]
Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。
コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
論文 参考訳(メタデータ) (2025-06-17T16:13:15Z) - Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe [30.03925858123481]
大規模言語モデル (LLM) は命令チューニングを行い、命令-応答ペアをNext-token Prediction (NTP) を用いて訓練する。
命令チューニングを改善する努力は、しばしば高品質な教師付き微調整(SFT)データセットに焦点を当てる。
SFTMix は,従来の NTP パラダイムを超越した LLM 命令のチューニングを行う,Mix ベースの新しいレシピである。
論文 参考訳(メタデータ) (2024-10-07T17:52:21Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。