Fugu-MT 論文翻訳(概要): GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models

論文の概要: GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models

arxiv url: http://arxiv.org/abs/2509.12108v2
Date: Tue, 16 Sep 2025 05:13:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 11:35:27.012971
Title: GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models
Title（参考訳）: GTA:大規模言語モデルを用いたテキスト分類のための教師付き強化学習
Authors: Min Zeng, Jingfei Sun, Xueyou Luo, Caiquan Liu, Shiqi Zhang, Li Xie, Xiaoxin Chen,
Abstract要約: 自然言語処理タスクでは、純粋な強化学習(RL)ファインチューニング手法は、しばしば非効率な探索と緩やかな収束に悩まされる。本稿では,SFT の効率性と RL の能力向上を統合学習パラダイムで組み合わせた Guess-Think-Answer (GTA) フレームワークを提案する。このハイブリッドアプローチは、純粋なRLよりも高速な収束と、純粋なSFTよりも高性能な天井を実現する。
参考スコア（独自算出の注目度）: 8.233245059144355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In natural language processing tasks, pure reinforcement learning (RL) fine-tuning methods often suffer from inefficient exploration and slow convergence; while supervised fine-tuning (SFT) methods, although efficient in training, have limited performance ceiling and less solid theoretical foundation compared to RL. To address efficiency-capability trade-off, we propose the Guess-Think-Answer (GTA) framework that combines the efficiency of SFT with the capability gains of RL in a unified training paradigm. GTA works by having the model first produce a provisional guess (optimized via cross-entropy loss), then reflect on this guess before generating the final answer, with RL rewards shaping both the final output and the format of the entire GTA structure. This hybrid approach achieves both faster convergence than pure RL and higher performance ceiling than pure SFT. To mitigate gradient conflicts between the two training signals, we employ loss masking and gradient constraints. Empirical results on four text classification benchmarks demonstrate that GTA substantially accelerates convergence while outperforming both standalone SFT and RL baselines.
Abstract（参考訳）: 自然言語処理タスクでは、純粋な強化学習(RL)の微調整法は、しばしば非効率な探索と緩やかな収束に悩まされるが、教師付き微調整(SFT)法は、訓練では効率的だが、性能の上限が限られており、RLに比べてしっかりとした理論的基礎が不十分である。本稿では,SFT の効率性と RL の能力向上を一体化した学習パラダイムである Guess-Think-Answer (GTA) フレームワークを提案する。 GTAは、モデルをまず仮推定(クロスエントロピー損失によって最適化)させ、次に最後の答えを生成する前にこの推測を反映させ、最終出力と全GTA構造の形式の両方をRLが形作る。このハイブリッドアプローチは、純粋なRLよりも高速な収束と、純粋なSFTよりも高性能な天井を実現する。 2つのトレーニング信号間の勾配衝突を軽減するために、損失マスキングと勾配制約を用いる。 4つのテキスト分類ベンチマークの実証結果から、GTAはコンバージェンスを大幅に加速し、スタンドアローンのSFTとRLのベースラインを上回ります。

関連論文リスト

SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning [54.393763477932474]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
論文参考訳（メタデータ） (2026-02-07T09:39:21Z)
On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training [10.433802085981046]
強化学習(RL)を用いたSFT指導型大規模言語モデルの学習後学習 RLはSFT最適性の下でSFT損失を増大させ、SFTはRLが達成した報酬を低下させることを示す。 Qwen3-0.6Bの実験では予測された劣化が確認され、SFTとRLは訓練後の性能を失うことなく分離できないことが確認された。
論文参考訳（メタデータ） (2026-01-12T10:14:09Z)
Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。 5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-19T14:37:07Z)
Mitigating Forgetting Between Supervised and Reinforcement Learning Yields Stronger Reasoners [28.039145840787683]
Supervised Fine-tuning (SFT)は相補的な利点を提供するが、通常大規模なデータと過度に適合するリスクを必要とする。 SFTとRLを組み合わせた最近の試みは、データ非効率、アルゴリズム固有の設計、破滅的な忘れ込みという3つの大きな課題に直面している。本稿では,SFT を RL に動的に統合するプラグイン・アンド・プレイフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-06T03:01:14Z)
Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning [36.06085913761571]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるのに有効であることが証明されているが、試行錯誤の性質による深刻な効率上の課題に悩まされている。本研究では,これらの学習パラダイム間の協調性を向上するために,二段階最適化を用いた推論モデル学習手法を提案する。
論文参考訳（メタデータ） (2025-09-08T17:58:02Z)
Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。 SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文参考訳（メタデータ） (2025-07-10T09:05:49Z)
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。 textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning) ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文参考訳（メタデータ） (2025-06-09T08:11:20Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。