論文の概要: Text2Grad: Reinforcement Learning from Natural Language Feedback
- arxiv url: http://arxiv.org/abs/2505.22338v1
- Date: Wed, 28 May 2025 13:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.623578
- Title: Text2Grad: Reinforcement Learning from Natural Language Feedback
- Title(参考訳): Text2Grad: 自然言語フィードバックによる強化学習
- Authors: Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang,
- Abstract要約: 我々は、自由形式のテキストフィードバックをスパンレベルの勾配に変換する、きめ細かい強化パラダイムであるText2Gradを紹介する。
以上の結果から, 自然言語フィードバックが勾配に変換された場合, より詳細な政策最適化のための強力な信号であることが示唆された。
- 参考スコア(独自算出の注目度): 32.59003667154527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional RLHF optimizes language models with coarse, scalar rewards that mask the fine-grained reasons behind success or failure, leading to slow and opaque learning. Recent work augments RL with textual critiques through prompting or reflection, improving interpretability but leaving model parameters untouched. We introduce Text2Grad, a reinforcement-learning paradigm that turns free-form textual feedback into span-level gradients. Given human (or programmatic) critiques, Text2Grad aligns each feedback phrase with the relevant token spans, converts these alignments into differentiable reward signals, and performs gradient updates that directly refine the offending portions of the model's policy. This yields precise, feedback-conditioned adjustments instead of global nudges. Text2Grad is realized through three components: (1) a high-quality feedback-annotation pipeline that pairs critiques with token spans; (2) a fine-grained reward model that predicts span-level reward on answer while generating explanatory critiques; and (3) a span-level policy optimizer that back-propagates natural-language gradients. Across summarization, code generation, and question answering, Text2Grad consistently surpasses scalar-reward RL and prompt-only baselines, providing both higher task metrics and richer interpretability. Our results demonstrate that natural-language feedback, when converted to gradients, is a powerful signal for fine-grained policy optimization. The code for our method is available at https://github.com/microsoft/Text2Grad
- Abstract(参考訳): 従来のRLHFは、成功や失敗の背景にあるきめ細かい理由を隠蔽する粗大でスカラーな報酬で言語モデルを最適化する。
最近の作業では、プロンプトやリフレクションを通じてRLをテキスト批判で強化し、解釈性を改善しながら、モデルパラメータを未修正のままにしている。
我々は、自由形式のテキストフィードバックをスパンレベルの勾配に変換する強化学習パラダイムであるText2Gradを紹介する。
人間の(あるいはプログラム的な)批判が与えられたとき、Text2Gradは各フィードバックフレーズを関連するトークンスパンと整列させ、これらのアライメントを識別可能な報酬信号に変換し、モデルのポリシーの違反部分を直接洗練する勾配更新を実行する。
これにより、グローバルナッジの代わりに正確なフィードバック条件の調整が得られます。
Text2Gradは,(1)トークンスパンに対する批判と組み合わせた高品質なフィードバックアノテーションパイプライン,(2)説明的批判を生成しながら回答に対するスパンレベル報酬を予測する微粒な報酬モデル,(3)自然言語勾配をバックプロパゲートするスパンレベルポリシーオプティマイザの3つのコンポーネントを通じて実現されている。
要約、コード生成、質問応答などを通じて、Text2GradはスカラーリワードRLとプロンプトのみのベースラインを一貫して上回り、より高いタスクメトリクスとよりリッチな解釈性を提供します。
以上の結果から, 自然言語フィードバックが勾配に変換されると, きめ細かい政策最適化のための強力な信号であることが示唆された。
私たちのメソッドのコードはhttps://github.com/microsoft/Text2Gradで利用可能です。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - LibraGrad: Balancing Gradient Flow for Universally Better Vision Transformer Attributions [17.88069510398486]
勾配に基づく説明はトランスフォーマーと競合する。
CNNが自然に持つ帰属勾配の重要な特性であるFullGrad完全性に反するトランスフォーマーのフロー不均衡を同定する。
私たちはLibraGradを紹介します。これは理論的に基礎付けられたポストホックアプローチで、プルーニングと後方経路のスケーリングによって勾配の不均衡を補正します。
論文 参考訳(メタデータ) (2024-11-24T15:02:52Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。