論文の概要: Expanding the Capabilities of Reinforcement Learning via Text Feedback
- arxiv url: http://arxiv.org/abs/2602.02482v1
- Date: Mon, 02 Feb 2026 18:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.389526
- Title: Expanding the Capabilities of Reinforcement Learning via Text Feedback
- Title(参考訳): テキストフィードバックによる強化学習能力の拡大
- Authors: Yuda Song, Lili Chen, Fahim Tajwar, Remi Munos, Deepak Pathak, J. Andrew Bagnell, Aarti Singh, Andrea Zanette,
- Abstract要約: テキストフィードバックをトレーニング中に利用できるが、推論では利用できないマルチターンRLセットアップであるテキストフィードバック(RLTF)を形式化する。
そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。
以上の結果から,両手法はベンチマークにおいて強いベースラインを一貫して上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 49.561885700139676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of RL for LLM post-training stems from an unreasonably uninformative source: a single bit of information per rollout as binary reward or preference label. At the other extreme, distillation offers dense supervision but requires demonstrations, which are costly and difficult to scale. We study text feedback as an intermediate signal: richer than scalar rewards, yet cheaper than complete demonstrations. Textual feedback is a natural mode of human interaction and is already abundant in many real-world settings, where users, annotators, and automated judges routinely critique LLM outputs. Towards leveraging text feedback at scale, we formalize a multi-turn RL setup, RL from Text Feedback (RLTF), where text feedback is available during training but not at inference. Therefore, models must learn to internalize the feedback in order to improve their test-time single-turn performance. To do this, we propose two methods: Self Distillation (RLTF-SD), which trains the single-turn policy to match its own feedback-conditioned second-turn generations; and Feedback Modeling (RLTF-FM), which predicts the feedback as an auxiliary objective. We provide theoretical analysis on both methods, and empirically evaluate on reasoning puzzles, competition math, and creative writing tasks. Our results show that both methods consistently outperform strong baselines across benchmarks, highlighting the potential of RL with an additional source of rich supervision at scale.
- Abstract(参考訳): LLMポストトレーニングにおけるRLの成功は、バイナリ報酬や選好ラベルとしてロールアウト毎の情報の1ビットという、不合理な情報源に起因している。
一方、蒸留は密集した監督を提供するが、コストがかかりスケールが困難である実演を必要とする。
我々は、テキストフィードバックを中間信号として研究し、スカラー報酬よりもリッチであるが、完全なデモンストレーションよりも安価である。
テキストフィードバックは人間のインタラクションの自然なモードであり、ユーザ、アノテータ、自動化された審査員が日常的にLCM出力を批判する、多くの実世界の設定で既に豊富である。
テキストフィードバックを大規模に活用するために,テキストフィードバックをトレーニング時に利用できるが推論時には利用できないマルチターンRL設定,テキストフィードバック(RLTF)を形式化する。
したがって、モデルはテスト時のシングルターンのパフォーマンスを改善するために、フィードバックを内部化することを学ぶ必要がある。
そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。
両手法の理論的解析を行い,推論パズル,競合数学,創造的文章作成タスクを経験的に評価する。
以上の結果から,両手法はベンチマークにおける強い基準線を一貫して上回り,RLの潜在性を強調した。
関連論文リスト
- LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。
第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。
次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文 参考訳(メタデータ) (2024-06-25T07:20:11Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。