論文の概要: Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.11120v1
- Date: Sun, 15 Dec 2024 08:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:25.750868
- Title: Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning
- Title(参考訳): Latent Reward: エピソード強化学習におけるLLMを活用したクレジットアサインメント
- Authors: Yun Qu, Yuhang Jiang, Boyuan Wang, Yixiu Mao, Cheems Wang, Chang Liu, Xiangyang Ji,
- Abstract要約: クレジット代入を改善するために,LLMを用いた新しいシンボルベースの意思決定フレームワークであるLaReを紹介する。
LaReの鍵は、多次元のパフォーマンス評価として機能するLatent Rewardの概念である。
ラレはSOTA手法に優れた時間的信用割当を達成し、(ii)複数のエージェント間の貢献の分配に優れ、(iii)特定のタスクに対する真理報酬で訓練されたポリシーより優れている。
- 参考スコア(独自算出の注目度): 45.30569353687124
- License:
- Abstract: Reinforcement learning (RL) often encounters delayed and sparse feedback in real-world applications, even with only episodic rewards. Previous approaches have made some progress in reward redistribution for credit assignment but still face challenges, including training difficulties due to redundancy and ambiguous attributions stemming from overlooking the multifaceted nature of mission performance evaluation. Hopefully, Large Language Model (LLM) encompasses fruitful decision-making knowledge and provides a plausible tool for reward redistribution. Even so, deploying LLM in this case is non-trivial due to the misalignment between linguistic knowledge and the symbolic form requirement, together with inherent randomness and hallucinations in inference. To tackle these issues, we introduce LaRe, a novel LLM-empowered symbolic-based decision-making framework, to improve credit assignment. Key to LaRe is the concept of the Latent Reward, which works as a multi-dimensional performance evaluation, enabling more interpretable goal attainment from various perspectives and facilitating more effective reward redistribution. We examine that semantically generated code from LLM can bridge linguistic knowledge and symbolic latent rewards, as it is executable for symbolic objects. Meanwhile, we design latent reward self-verification to increase the stability and reliability of LLM inference. Theoretically, reward-irrelevant redundancy elimination in the latent reward benefits RL performance from more accurate reward estimation. Extensive experimental results witness that LaRe (i) achieves superior temporal credit assignment to SOTA methods, (ii) excels in allocating contributions among multiple agents, and (iii) outperforms policies trained with ground truth rewards for certain tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、実世界のアプリケーションにおいて、エピソード的な報酬のみを伴っても、遅延や疎結合なフィードバックに遭遇することが多い。
これまでのアプローチでは、クレジットの割り当てに対する報酬の再分配に多少の進歩があったが、冗長性によるトレーニングの困難や、ミッションパフォーマンス評価の多面的な性質を見渡すことから生じる曖昧な属性など、依然として課題に直面している。
望ましくは、Large Language Model (LLM) は実りある意思決定の知識を包含し、報酬の再分配のための有効なツールを提供する。
それでも、言語知識と記号形式要件の相違や、推論における固有のランダム性や幻覚などにより、このケースでLLMをデプロイするのは簡単ではない。
これらの課題に対処するため,新しいLLMを用いたシンボリック意思決定フレームワークであるLaReを導入し,クレジット割り当てを改善する。
LaReの鍵となるのは、多次元のパフォーマンス評価として機能し、様々な観点からより解釈可能な目標達成を可能にし、より効果的な報酬の再分配を促進するラテント・リワードの概念である。
我々は,LLMから生成した意味論的コードによって,言語知識と記号的潜在報酬を橋渡しすることができることを検証した。
一方、LLM推論の安定性と信頼性を高めるために、潜在報酬自己検証を設計する。
理論的には、より正確な報酬推定から潜在報酬利得RL性能の報酬非関連冗長性除去を行う。
LaReの大規模な実験結果
i)SOTA方式に優れた時間的クレジット割り当てを実現する。
二 複数の代理人の貢献の配分に長けていること、及び
(三)特定の業務に対する真理の報奨によって訓練された政策を上回ります。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL [14.091146805312636]
信用割当問題は強化学習(RL)における中心的な課題である
クレジット・アサインメント・ウィズ・ランゲージ・モデル(CALM)は、報酬形成とオプション発見を通じてクレジット・アサインメントを自動化する新しいアプローチである。
予備的な結果は、大規模言語モデルの知識が、RLにおける信用代入の有望な先行であることを示している。
論文 参考訳(メタデータ) (2024-09-19T14:08:09Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。