論文の概要: Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback
- arxiv url: http://arxiv.org/abs/2410.23022v1
- Date: Wed, 30 Oct 2024 13:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:14.671517
- Title: Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback
- Title(参考訳): 大規模言語モデルフィードバックからの意思決定エージェントのオンライン内在的リワード
- Authors: Qinqing Zheng, Mikael Henaff, Amy Zhang, Aditya Grover, Brandon Amos,
- Abstract要約: ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
提案手法は,NetHack 学習環境から得られる,難易度の高い報奨課題にまたがって,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 45.82577700155503
- License:
- Abstract: Automatically synthesizing dense rewards from natural language descriptions is a promising paradigm in reinforcement learning (RL), with applications to sparse reward problems, open-ended exploration, and hierarchical skill design. Recent works have made promising steps by exploiting the prior knowledge of large language models (LLMs). However, these approaches suffer from important limitations: they are either not scalable to problems requiring billions of environment samples; or are limited to reward functions expressible by compact code, which may require source code and have difficulty capturing nuanced semantics; or require a diverse offline dataset, which may not exist or be impossible to collect. In this work, we address these limitations through a combination of algorithmic and systems-level contributions. We propose ONI, a distributed architecture that simultaneously learns an RL policy and an intrinsic reward function using LLM feedback. Our approach annotates the agent's collected experience via an asynchronous LLM server, which is then distilled into an intrinsic reward model. We explore a range of algorithmic choices for reward modeling with varying complexity, including hashing, classification, and ranking models. By studying their relative tradeoffs, we shed light on questions regarding intrinsic reward design for sparse reward problems. Our approach achieves state-of-the-art performance across a range of challenging, sparse reward tasks from the NetHack Learning Environment in a simple unified process, solely using the agent's gathered experience, without requiring external datasets nor source code. We make our code available at \url{URL} (coming soon).
- Abstract(参考訳): 自然言語記述から高次報酬を自動合成することは強化学習(RL)において有望なパラダイムであり、報酬問題をスパースし、探索し、階層的なスキル設計を行う。
最近の研究は、大規模言語モデル(LLM)の以前の知識を活用することで、有望な一歩を踏み出した。
しかし、これらのアプローチは、何十億もの環境サンプルを必要とする問題に対してスケーラビリティがないか、ソースコードが必要でニュアンスドセマンティクスの取得が困難であるコンパクトコードで表現可能な関数に制限されているか、あるいは、存在しない、あるいは収集できないさまざまなオフラインデータセットを必要とする。
本研究では,アルゴリズムとシステムレベルのコントリビューションを組み合わせることで,これらの制限に対処する。
LLMフィードバックを用いてRLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャであるONIを提案する。
提案手法は,非同期LLMサーバを用いてエージェントの収集した経験を注釈し,本質的な報酬モデルに抽出する。
我々は、ハッシュ、分類、ランキングモデルなど、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
相対的なトレードオフを研究することで、スパース報酬問題に対する本質的な報酬設計に関する質問に光を当てた。
提案手法は,外部データセットやソースコードを必要とせず,エージェントの収集した経験のみを用いて,単純な統一プロセスでNetHack Learning Environmentから得られる,難易度の高いさまざまな報酬タスクに対して,最先端のパフォーマンスを実現する。
コードを \url{URL} で利用可能にしています(もうすぐです)。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Automated Rewards via LLM-Generated Progress Functions [47.50772243693897]
大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。
本稿では,挑戦的なBi-DexHandsベンチマーク上で,最先端のポリシーを生成可能なLLM駆動の報酬生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T18:41:15Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - On Extracting Specialized Code Abilities from Large Language Models: A
Feasibility Study [22.265542509143756]
大規模言語モデル(LLM)における模倣攻撃の実現可能性について検討する。
攻撃者は、中規模のバックボーンモデルを訓練して、ターゲットのLLMに似た特殊なコード動作を再現できることを示す。
論文 参考訳(メタデータ) (2023-03-06T10:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。