論文の概要: Language Models Can Learn from Verbal Feedback Without Scalar Rewards
- arxiv url: http://arxiv.org/abs/2509.22638v1
- Date: Fri, 26 Sep 2025 17:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.63545
- Title: Language Models Can Learn from Verbal Feedback Without Scalar Rewards
- Title(参考訳): 言語モデルはスカラリワードなしで言語フィードバックから学ぶことができる
- Authors: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang,
- Abstract要約: 本稿では,言語フィードバックを条件付け信号として扱うことを提案する。
テキスト・画像生成における言語先行性に着想を得て,フィードバック条件ポリシーを導入する。
- 参考スコア(独自算出の注目度): 88.82702433508393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.
- Abstract(参考訳): LLMは人間やAIからのフィードバックからRLで訓練されることが多いが、そのような手法は通常、ニュアンスされたフィードバックをスカラーの報酬に圧縮し、その豊かさの多くを捨て、スケールの不均衡を誘発する。
本稿では,言語フィードバックを条件付け信号として扱うことを提案する。
未知のプロンプトからの新たな出力を可能にするテキスト・ツー・イメージ生成における言語優先の着想を得て,フィードバック条件ポリシー(FCP)を導入する。
FCPはフィードバックフィードバックペアから直接学習し、オフラインデータに対する最大限のトレーニングを通じてフィードバック条件後部を近似する。
さらに、ポジティブな条件下でポリシーが生成され、自己改善のために新たなフィードバックを受けるオンラインブートストラップステージを開発する。
これは、フィードバック駆動学習を報酬最適化ではなく条件生成として再設定し、LLMが言語フィードバックから直接学ぶためのより表現力のある方法を提供する。
私たちのコードはhttps://github.com/sail-sg/feedback-conditional-policyで利用可能です。
関連論文リスト
- Text2Grad: Reinforcement Learning from Natural Language Feedback [32.59003667154527]
我々は、自由形式のテキストフィードバックをスパンレベルの勾配に変換する、きめ細かい強化パラダイムであるText2Gradを紹介する。
以上の結果から, 自然言語フィードバックが勾配に変換された場合, より詳細な政策最適化のための強力な信号であることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T13:23:49Z) - Aligning Dialogue Agents with Global Feedback via Large Language Model Reward Decomposition [57.732148933412425]
本稿では,対話エージェントを協調する大規模言語モデルに基づく報酬分解フレームワークを提案する。
凍結した事前訓練された大きな言語モデルの推論能力を利用して、きめ細かい局所的な暗黙の報酬を推測する。
我々は、テキストのみとマルチモーダルの両方の変種を、最先端の報酬分解法に対して評価する。
論文 参考訳(メタデータ) (2025-05-21T18:19:45Z) - Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [2.427844597259453]
強化学習(Reinforcement Learning, RL)は、しばしば報酬のミスアライメントに苦しむ。
HITL(Human-in-the-loop)メソッドはこの問題を緩和するが、バイアスも導入する。
これらの課題に対処するための2つの重要な貢献を提案する。
論文 参考訳(メタデータ) (2025-03-26T03:17:12Z) - Time-Reversal Provides Unsupervised Feedback to LLMs [31.575024356581846]
Time Reversed Language Models (TRLM) は、応答に条件付きでクエリをスコアし、生成することができる。
TRLMのスコアリングは,従来のクエリのフォワードスコアよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:54:12Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。