Fugu-MT 論文翻訳(概要): Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

論文の概要: Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

arxiv url: http://arxiv.org/abs/2312.09238v2
Date: Sat, 30 Mar 2024 15:35:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 14:45:23.937749
Title: Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft
Title（参考訳）: Auto MC-Reward:Minecraft用の大規模言語モデルによるDense Reward設計
Authors: Hao Li, Xue Yang, Zhaokai Wang, Xizhou Zhu, Jie Zhou, Yu Qiao, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai,
Abstract要約: 本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
参考スコア（独自算出の注目度）: 88.80684763462384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many reinforcement learning environments (e.g., Minecraft) provide only sparse rewards that indicate task completion or failure with binary values. The challenge in exploration efficiency in such environments makes it difficult for reinforcement-learning-based agents to learn complex tasks. To address this, this paper introduces an advanced learning system, named Auto MC-Reward, that leverages Large Language Models (LLMs) to automatically design dense reward functions, thereby enhancing the learning efficiency. Auto MC-Reward consists of three important components: Reward Designer, Reward Critic, and Trajectory Analyzer. Given the environment information and task descriptions, the Reward Designer first design the reward function by coding an executable Python function with predefined observation inputs. Then, our Reward Critic will be responsible for verifying the code, checking whether the code is self-consistent and free of syntax and semantic errors. Further, the Trajectory Analyzer summarizes possible failure causes and provides refinement suggestions according to collected trajectories. In the next round, Reward Designer will further refine and iterate the dense reward function based on feedback. Experiments demonstrate a significant improvement in the success rate and learning efficiency of our agents in complex tasks in Minecraft, such as obtaining diamond with the efficient ability to avoid lava, and efficiently explore trees and animals that are sparse in the plains biome.
Abstract（参考訳）: 多くの強化学習環境(Minecraftなど)は、タスク完了やバイナリ値の失敗を示す粗末な報酬のみを提供する。このような環境での探索効率の課題は、強化学習に基づくエージェントが複雑なタスクを学ぶのを困難にしている。そこで本稿では,大規模言語モデル(LLM)を利用して高次報酬関数を自動設計し,学習効率を向上させる,Auto MC-Rewardという高度な学習システムを提案する。 Auto MC-RewardはReward Designer、Reward Critic、Trjectory Analyzerの3つの重要なコンポーネントで構成されている。環境情報とタスク記述が与えられた後、Reward Designerはまず、事前に定義された観察入力で実行可能なPython関数をコーディングすることで報酬関数を設計する。そして、Reward Criticはコードを検証し、コードが自己一貫性があり、シンタックスやセマンティックエラーがないかどうかをチェックする責任を負います。さらに、Trajectory Analyzerは、可能な障害原因を要約し、収集されたトラジェクトリに従って改善提案を提供する。次のラウンドでは、Reward Designerはフィードバックに基づいてより洗練され、より密集した報酬関数を反復する。実験は、マインクラフトの複雑な作業におけるエージェントの成功率と学習効率を著しく改善することを示し、例えば、溶岩を回避できる効率的なダイヤモンドを入手し、平原の生物群で疎らな木や動物を効率的に探索するなどである。

関連論文リスト

Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning [27.233232260388682]
そこで本研究では,シミュレーションや学習を行うビデオから報酬関数を直接生成する,新しい video2reward 手法を提案する。本手法は,人間の正規化スコアにおいて,最先端のLCMに基づく報酬生成手法の性能を37.6%以上上回る。
論文参考訳（メタデータ） (2024-12-07T03:10:27Z)
A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。 CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文参考訳（メタデータ） (2024-10-18T17:51:51Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文参考訳（メタデータ） (2024-05-12T04:57:43Z)
Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery [64.41455104593304]
Reinforcement Learning from Human Feedback (RLHF)は、機械学習モデルを改善し、それを人間の好みに合わせる。本稿では,RL法と類似した手法を非教師対象発見に適用することを提案する。私たちは、我々のアプローチがより正確であるだけでなく、訓練よりも桁違いに高速であることを示した。
論文参考訳（メタデータ） (2023-10-29T17:03:12Z)
Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文参考訳（メタデータ） (2023-10-21T19:10:06Z)
Text2Reward: Reward Shaping with Language Models for Reinforcement Learning [26.95923597947465]
Text2Rewardは、大きな言語モデルに基づいた高密度報酬関数の生成と形成を自動化する。様々なタスクをカバーし、既存のパッケージを活用し、人間のフィードバックで反復的な改善を可能にする、解釈可能な、自由形式の高密度報酬コードを生成する。移動課題では, 成功率94%を超える6つの新しい動作を学習する。
論文参考訳（メタデータ） (2023-09-20T17:39:13Z)
Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T02:56:56Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。 DFR-Netという動的特徴反射ネットワークを導入する。我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文参考訳（メタデータ） (2021-12-28T07:31:18Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。