Fugu-MT 論文翻訳(概要): Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization

論文の概要: Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization

arxiv url: http://arxiv.org/abs/2401.07181v1
Date: Sun, 14 Jan 2024 01:09:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 19:18:11.057188
Title: Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization
Title（参考訳）: LLMフィードバックからの強化学習と対向ゴールミスジェネリゼーション
Authors: Houda Nait El Barj, Theophile Sautory
Abstract要約: 強化学習(RL)における目標誤一般化に対処する手法を提案する。目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a method to address goal misgeneralization in reinforcement learning (RL), leveraging Large Language Model (LLM) feedback during training. Goal misgeneralization, a type of robustness failure in RL occurs when an agent retains its capabilities out-of-distribution yet pursues a proxy rather than the intended one. Our approach utilizes LLMs to analyze an RL agent's policies during training and identify potential failure scenarios. The RL agent is then deployed in these scenarios, and a reward model is learnt through the LLM preferences and feedback. This LLM-informed reward model is used to further train the RL agent on the original dataset. We apply our method to a maze navigation task, and show marked improvements in goal generalization, especially in cases where true and proxy goals are somewhat distinguishable and behavioral biases are pronounced. This study demonstrates how the LLM, despite its lack of task proficiency, can efficiently supervise RL agents, providing scalable oversight and valuable insights for enhancing goal-directed learning in RL through the use of LLMs.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)フィードバックを活用した強化学習(RL)における目標誤一般化に対処する手法を提案する。目標の一般化(goal misgeneralization) rlにおける堅牢性障害の一種は、エージェントが分散能力を保持しながら、意図したものではなくプロキシを追求した場合に発生する。本手法はLLMを用いて,トレーニング中のRLエージェントのポリシーを分析し,潜在的な障害シナリオを特定する。 RLエージェントはこれらのシナリオにデプロイされ、LLMの好みとフィードバックを通じて報酬モデルが学習される。このLLMインフォームド報酬モデルを使用して、元のデータセット上でRLエージェントをさらに訓練する。本手法を迷路ナビゲーションタスクに適用し,特に真とプロキシの目標がある程度区別可能であり,行動バイアスが顕著な場合に,目標一般化の顕著な改善を示す。本研究は、LLMがタスク能力の不足にもかかわらず、効率的にRLエージェントを監督し、LLMを用いてRLにおける目標指向学習を強化するためのスケーラブルな監視と価値ある洞察を提供する方法を示す。

関連論文リスト

Memory-Based Advantage Shaping for LLM-Guided Reinforcement Learning [18.215893951726166]
スパースや遅延した報酬のある環境では、強化学習は高いサンプル複雑さを引き起こす。この制限は、大規模言語モデル(LLM)をサブゴール発見や軌道誘導に使う動機となった。 LLMガイダンスとエージェント自身のロールアウトの成功の両方から,サブゴールとトラジェクトリを符号化したメモリグラフを構築することで,これらの課題に対処する。
論文参考訳（メタデータ） (2026-02-20T01:44:35Z)
Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations [0.0]
大規模言語モデル(LLM)は、手続き的知識とテキスト事前学習による推論能力を持っている。拡張観測空間を通してLLM生成アクションレコメンデーションを提供するフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T19:54:31Z)
Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文参考訳（メタデータ） (2025-09-20T13:11:28Z)
Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。 4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文参考訳（メタデータ） (2025-05-27T03:40:02Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model [17.4036850872656]
嗜好に基づく強化学習(PbRL)は、人間の嗜好に基づいて報酬を学習することで、巧妙な報酬工学を避けるための強力なパラダイムを提供する。本稿では,オンラインPbRLの特権情報に依存しないRL自己拡張大言語モデルフィードバック(RL-SaLLM-F)手法を提案する。
論文参考訳（メタデータ） (2024-12-22T06:15:25Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL [14.091146805312636]
信用割当問題は強化学習(RL)における中心的な課題であるクレジット・アサインメント・ウィズ・ランゲージ・モデル(CALM)は、報酬形成とオプション発見を通じてクレジット・アサインメントを自動化する新しいアプローチである。予備的な結果は、大規模言語モデルの知識が、RLにおける信用代入の有望な先行であることを示している。
論文参考訳（メタデータ） (2024-09-19T14:08:09Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Mutual Enhancement of Large Language and Reinforcement Learning Models through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-12T14:35:57Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。