論文の概要: Goal-Conditioned Supervised Learning for LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.16345v1
- Date: Fri, 08 May 2026 01:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.901667
- Title: Goal-Conditioned Supervised Learning for LLM Fine-Tuning
- Title(参考訳): LLMファインチューニングのためのゴールコンディション型指導学習
- Authors: Shijun Li, Kaiwen Dong, Xiang Gao, Joydeep Ghosh,
- Abstract要約: 大規模言語モデルのためのオフライン微調整フレームワークとして,目標条件付き教師あり学習を提案する。
私たちの中核的な考え方は、フィードバック信号を直接明示的な目標として扱い、純粋に教師付き学習を通じてモデルをトレーニングし、その目標を達成するためのレスポンスを生成することです。
- 参考スコア(独自算出の注目度): 10.43951412455864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often require fine-tuning to better align their behavior with user intent at deployment. Existing approaches are commonly divided into online and offline paradigms. Online methods, such as RL-based alignment, can directly optimize outcome quality but typically rely on external reward models and iterative rollouts, making them costly and difficult to deploy in many cases. Offline methods are more efficient, but prevailing approaches such as supervised fine-tuning (SFT) and direct preference optimization (DPO) remain limited: SFT typically collapses graded feedback into binary supervision, while DPO depends on paired preference data that is often unavailable or expensive to construct. In this paper, we propose goal-conditioned supervised learning (GCSL) as an offline fine-tuning framework for LLMs. Our core idea is to treat feedback signals directly as an explicit goal and train the model, purely through supervised learning, to generate responses that achieve that goal. To better exploit graded feedback, we further introduce a novel goal formulation that defines learning as consistently pursuing outcomes above a target quality threshold, rather than imitating samples from a selected high-quality subset. This design mitigates the bounded-learning effect of SFT and classic GCSL by explicitly guiding the model to learn the directional progression of quality. We also propose natural-language goal representations to better leverage the semantic understanding and reasoning capabilities of LLMs. We evaluate our method on three tasks: non-toxic generation, code generation, and LLM for recommendation. Results show that our approach consistently outperforms standard offline fine-tuning baselines while retaining the efficiency, scalability, and simple data requirements of supervised learning.
- Abstract(参考訳): 大規模な言語モデルでは、デプロイメント時のユーザの意図と行動の整合性を改善するために、微調整が必要な場合が多い。
既存のアプローチは、一般的にオンラインとオフラインのパラダイムに分けられる。
RLベースのアライメントのようなオンライン手法は、直接結果の品質を最適化することができるが、通常は外部報酬モデルや反復的なロールアウトに依存しているため、多くの場合、コストとデプロイが困難である。
オフライン手法はより効率的であるが、教師付き微調整(SFT)や直接選好最適化(DPO)といった一般的なアプローチは依然として限られている。
本稿では,LCMのオフライン微調整フレームワークとして,目標条件付き教師あり学習(GCSL)を提案する。
私たちの中核的な考え方は、フィードバック信号を直接明示的な目標として扱い、純粋に教師付き学習を通じてモデルをトレーニングし、その目標を達成するためのレスポンスを生成することです。
次級フィードバックをよりうまく活用するために、選択された高品質サブセットのサンプルを模倣するのではなく、学習を目標品質閾値以上を一貫して追求する結果として定義する新しい目標定式化を導入する。
この設計は、SFTと従来のGCSLのバウンドラーニング効果を緩和し、モデルに品質の方向性の進行を明示的に導く。
また,LLMのセマンティック理解と推論能力をよりよく活用するための自然言語目標表現を提案する。
非毒性生成、コード生成、LLMの3つのタスクで提案手法の評価を行った。
その結果,本手法は教師あり学習の効率性,スケーラビリティ,単純なデータ要求を保ちながら,標準のオフライン微調整ベースラインを一貫して上回っていることがわかった。
関連論文リスト
- Memory-Based Advantage Shaping for LLM-Guided Reinforcement Learning [18.215893951726166]
スパースや遅延した報酬のある環境では、強化学習は高いサンプル複雑さを引き起こす。
この制限は、大規模言語モデル(LLM)をサブゴール発見や軌道誘導に使う動機となった。
LLMガイダンスとエージェント自身のロールアウトの成功の両方から,サブゴールとトラジェクトリを符号化したメモリグラフを構築することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-02-20T01:44:35Z) - Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。
LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。
本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:28:29Z) - PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。