論文の概要: From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards
- arxiv url: http://arxiv.org/abs/2411.15891v1
- Date: Sun, 24 Nov 2024 15:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:40.127071
- Title: From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards
- Title(参考訳): 法からモチベーションへ:法に基づく推論とリワードによる探索の指導
- Authors: Ziyu Chen, Zhiqing Xiao, Xinbei Jiang, Junbo Zhao,
- Abstract要約: 大規模言語モデル(LLM)と強化学習(RL)は、自律エージェントを構築するための強力なアプローチである。
ゲーム環境の基本法則をモデル化するために,インタラクションレコードから経験を抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 12.698095783768322
- License:
- Abstract: Large Language Models (LLMs) and Reinforcement Learning (RL) are two powerful approaches for building autonomous agents. However, due to limited understanding of the game environment, agents often resort to inefficient exploration and trial-and-error, struggling to develop long-term strategies or make decisions. We propose a method that extracts experience from interaction records to model the underlying laws of the game environment, using these experience as internal motivation to guide agents. These experience, expressed in language, are highly flexible and can either assist agents in reasoning directly or be transformed into rewards for guiding training. Our evaluation results in Crafter demonstrate that both RL and LLM agents benefit from these experience, leading to improved overall performance.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)は、自律エージェントを構築するための2つの強力なアプローチである。
しかし、ゲーム環境の理解が限られているため、エージェントはしばしば非効率な探索と試行錯誤に頼り、長期戦略の開発や意思決定に苦労する。
エージェントを誘導するための内部モチベーションとして,インタラクションレコードから経験を抽出し,ゲーム環境の基本法則をモデル化する手法を提案する。
言語で表現されたこれらの経験は、非常に柔軟であり、直接推論するエージェントを支援するか、トレーニングを指導するための報酬に変換することができる。
Crafter における評価の結果,RL と LLM のエージェントはいずれもこれらの経験から恩恵を受けており,全体的な性能が向上することが示された。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Learning from Ambiguous Demonstrations with Self-Explanation Guided
Reinforcement Learning [20.263419567168388]
本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。
このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。
我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
論文 参考訳(メタデータ) (2021-10-11T13:59:48Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Co-Imitation Learning without Expert Demonstration [39.988945772085465]
我々は,エージェントの過去の優れた経験を専門家のデモンストレーションなしで活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。
経験は有用か誤解を招く可能性があるが、期待される値関数の利得によって各経験の潜在的有用性を評価することを提案する。
各種課題に対する実験結果から,提案したコイミテーション学習フレームワークの有意な優位性を示した。
論文 参考訳(メタデータ) (2021-03-27T06:58:40Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。