論文の概要: Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.04597v1
- Date: Wed, 04 Mar 2026 20:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.975435
- Title: Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning
- Title(参考訳): 強化学習におけるグループレベル自然言語フィードバックを用いたブートストラップ探索
- Authors: Lei Huang, Xiang Cheng, Chenxiao Zhao, Guobin Shen, Junjie Yang, Xiaocheng Feng, Yuxuan Gu, Xing Yu, Bing Qin,
- Abstract要約: GOLFは,グループレベルの言語フィードバックを利用して探索を誘導するRLフレームワークである。
GOLFは、エラーを特定したり、目標とする修正を提案したりする外部批判を集約し、代替部分的なアイデアと多様な障害パターンを提供するグループ内の試みを行う。
検証可能なベンチマークと検証できないベンチマークの両方の実験は、GOLFが優れた性能と探索効率を達成することを示している。
- 参考スコア(独自算出の注目度): 56.29188272643489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) typically receive diverse natural language (NL) feedback through interaction with the environment. However, current reinforcement learning (RL) algorithms rely solely on scalar rewards, leaving the rich information in NL feedback underutilized and leading to inefficient exploration. In this work, we propose GOLF, an RL framework that explicitly exploits group-level language feedback to guide targeted exploration through actionable refinements. GOLF aggregates two complementary feedback sources: (i) external critiques that pinpoint errors or propose targeted fixes, and (ii) intra-group attempts that supply alternative partial ideas and diverse failure patterns. These group-level feedbacks are aggregated to produce high-quality refinements, which are adaptively injected into training as off-policy scaffolds to provide targeted guidance in sparse-reward regions. Meanwhile, GOLF jointly optimizes generation and refinement within a unified RL loop, creating a virtuous cycle that continuously improves both capabilities. Experiments on both verifiable and non-verifiable benchmarks show that GOLF achieves superior performance and exploration efficiency, achieving 2.2$\times$ improvements in sample efficiency compared to RL methods trained solely on scalar rewards. Code is available at https://github.com/LuckyyySTA/GOLF.
- Abstract(参考訳): 大規模言語モデル(LLM)は、環境との相互作用を通じて様々な自然言語(NL)フィードバックを受けるのが一般的である。
しかし、現在の強化学習(RL)アルゴリズムはスカラー報酬のみに依存しており、NLフィードバックの豊富な情報は未利用であり、非効率な探索につながる。
本研究では,グループレベルの言語フィードバックを明示的に活用し,行動可能な改良を通じて対象探索をガイドするRLフレームワークであるGOLFを提案する。
GOLFは2つの補完的なフィードバックソースを集約します。
一 エラーを指摘し、又は目標とする修正を提案する外部批判及び
(ii) 代替的な部分的アイデアと多様な失敗パターンを提供するグループ内の試み。
これらのグループレベルのフィードバックを集約して高品質な改善を図り、これはスパース・リワード地域での目標ガイダンスを提供するために、オフ・ポリティックな足場として訓練に適応的に注入される。
一方、GOLFは統一されたRLループ内での生成と改善を共同で最適化し、両方の機能を継続的に改善する活発なサイクルを生成する。
検証可能なベンチマークと検証不可能なベンチマークの両方の実験では、GOLFはより優れた性能と探索効率を達成し、2.2$\times$のサンプル効率向上を実現している。
コードはhttps://github.com/LuckyySTA/GOLFで入手できる。
関連論文リスト
- Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling [13.584783462913535]
Deep Dense Exploration (DDE) は、$textitpivots$-deep、リカバリ可能な状態を軌道上で探索する戦略である。
我々の手法はGRPOや木に基づく手法、その他の強力なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-02-15T14:44:15Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。