論文の概要: GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.12108v1
- Date: Mon, 15 Sep 2025 16:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.404003
- Title: GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models
- Title(参考訳): GTA:大規模言語モデルを用いたテキスト分類のための教師付き強化学習
- Authors: Min Zeng, Jinfei Sun, Xueyou Luo, Caiquan Liu, Shiqi Zhang, Li Xie, Xiaoxin Chen,
- Abstract要約: 自然言語処理タスクでは、純粋な強化学習(RL)ファインチューニング手法は、しばしば非効率な探索と緩やかな収束に悩まされる。
本稿では,SFT の効率性と RL の能力向上を統合学習パラダイムで組み合わせた Guess-Think-Answer (GTA) フレームワークを提案する。
このハイブリッドアプローチは、純粋なRLよりも高速な収束と、純粋なSFTよりも高性能な天井を実現する。
- 参考スコア(独自算出の注目度): 8.233245059144355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing tasks, pure reinforcement learning (RL) fine-tuning methods often suffer from inefficient exploration and slow convergence; while supervised fine-tuning (SFT) methods, although efficient in training, have limited performance ceiling and less solid theoretical foundation compared to RL. To address efficiency-capability trade-off, we propose the Guess-Think-Answer (GTA) framework that combines the efficiency of SFT with the capability gains of RL in a unified training paradigm. GTA works by having the model first produce a provisional guess (optimized via cross-entropy loss), then reflect on this guess before generating the final answer, with RL rewards shaping both the final output and the format of the entire GTA structure. This hybrid approach achieves both faster convergence than pure RL and higher performance ceiling than pure SFT. To mitigate gradient conflicts between the two training signals, we employ loss masking and gradient constraints. Empirical results on four text classification benchmarks demonstrate that GTA substantially accelerates convergence while outperforming both standalone SFT and RL baselines.
- Abstract(参考訳): 自然言語処理タスクでは、純粋な強化学習(RL)の微調整法は、しばしば非効率な探索と緩やかな収束に悩まされるが、教師付き微調整(SFT)法は、訓練では効率的だが、性能の上限が限られており、RLに比べてしっかりとした理論的基礎が不十分である。
本稿では,SFT の効率性と RL の能力向上を一体化した学習パラダイムである Guess-Think-Answer (GTA) フレームワークを提案する。
GTAは、モデルをまず仮推定(クロスエントロピー損失によって最適化)させ、次に最後の答えを生成する前にこの推測を反映させ、最終出力と全GTA構造の形式の両方をRLが形作る。
このハイブリッドアプローチは、純粋なRLよりも高速な収束と、純粋なSFTよりも高性能な天井を実現する。
2つのトレーニング信号間の勾配衝突を軽減するために、損失マスキングと勾配制約を用いる。
4つのテキスト分類ベンチマークの実証結果から、GTAはコンバージェンスを大幅に加速し、スタンドアローンのSFTとRLのベースラインを上回ります。
関連論文リスト
- Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning [36.06085913761571]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるのに有効であることが証明されているが、試行錯誤の性質による深刻な効率上の課題に悩まされている。
本研究では,これらの学習パラダイム間の協調性を向上するために,二段階最適化を用いた推論モデル学習手法を提案する。
論文 参考訳(メタデータ) (2025-09-08T17:58:02Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。