論文の概要: Learning Reward for Physical Skills using Large Language Model
- arxiv url: http://arxiv.org/abs/2310.14092v1
- Date: Sat, 21 Oct 2023 19:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:06:26.327108
- Title: Learning Reward for Physical Skills using Large Language Model
- Title(参考訳): 大規模言語モデルを用いた物理スキルの学習
- Authors: Yuwei Zeng, Yiqing Xu
- Abstract要約: 大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
- 参考スコア(独自算出の注目度): 5.795405764196473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning reward functions for physical skills are challenging due to the vast
spectrum of skills, the high-dimensionality of state and action space, and
nuanced sensory feedback. The complexity of these tasks makes acquiring expert
demonstration data both costly and time-consuming. Large Language Models (LLMs)
contain valuable task-related knowledge that can aid in learning these reward
functions. However, the direct application of LLMs for proposing reward
functions has its limitations such as numerical instability and inability to
incorporate the environment feedback. We aim to extract task knowledge from
LLMs using environment feedback to create efficient reward functions for
physical skills. Our approach consists of two components. We first use the LLM
to propose features and parameterization of the reward function. Next, we
update the parameters of this proposed reward function through an iterative
self-alignment process. In particular, this process minimizes the ranking
inconsistency between the LLM and our learned reward functions based on the new
observations. We validated our method by testing it on three simulated physical
skill learning tasks, demonstrating effective support for our design choices.
- Abstract(参考訳): 身体的スキルに対する報酬関数の学習は、幅広いスキル、状態と行動空間の高次元、ニュアンスされた感覚フィードバックのために困難である。
これらのタスクの複雑さは、専門家による実証データを取得するのにコストと時間を要する。
大規模言語モデル(LLM)は、これらの報酬関数を学習するのに役立つ貴重なタスク関連の知識を含んでいる。
しかし、LLMの報酬関数の直接適用には、数値的不安定性や環境フィードバックを組み込むことができないといった制限がある。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,物理的スキルに対する効率的な報酬関数を作成することを目的とする。
我々のアプローチは2つの要素からなる。
まず LLM を用いて報酬関数の特徴とパラメータ化を提案する。
次に,提案する報酬関数のパラメータを反復的自己調整プロセスを通じて更新する。
特に、このプロセスは、新たな観測結果に基づいて、LLMと学習報酬関数のランキングの不整合を最小化する。
3つの物理スキル学習タスクでテストし,設計選択に対する効果的な支援を実証し,本手法の有効性を検証した。
関連論文リスト
- Automated Rewards via LLM-Generated Progress Functions [47.50772243693897]
大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。
本稿では,挑戦的なBi-DexHandsベンチマーク上で,最先端のポリシーを生成可能なLLM駆動の報酬生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T18:41:15Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。
OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文 参考訳(メタデータ) (2024-06-24T15:57:48Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Value Functions from Undirected State-only Experience [17.76847333440422]
離散決定過程 (MDP) におけるマルコフ・クラーニング(英語版)は、作用空間の任意の洗練の下で同じ値関数を学習することを示す。
この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。
LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:24:36Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。