論文の概要: Learning Reward for Physical Skills using Large Language Model
- arxiv url: http://arxiv.org/abs/2310.14092v1
- Date: Sat, 21 Oct 2023 19:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:06:26.327108
- Title: Learning Reward for Physical Skills using Large Language Model
- Title(参考訳): 大規模言語モデルを用いた物理スキルの学習
- Authors: Yuwei Zeng, Yiqing Xu
- Abstract要約: 大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
- 参考スコア(独自算出の注目度): 5.795405764196473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning reward functions for physical skills are challenging due to the vast
spectrum of skills, the high-dimensionality of state and action space, and
nuanced sensory feedback. The complexity of these tasks makes acquiring expert
demonstration data both costly and time-consuming. Large Language Models (LLMs)
contain valuable task-related knowledge that can aid in learning these reward
functions. However, the direct application of LLMs for proposing reward
functions has its limitations such as numerical instability and inability to
incorporate the environment feedback. We aim to extract task knowledge from
LLMs using environment feedback to create efficient reward functions for
physical skills. Our approach consists of two components. We first use the LLM
to propose features and parameterization of the reward function. Next, we
update the parameters of this proposed reward function through an iterative
self-alignment process. In particular, this process minimizes the ranking
inconsistency between the LLM and our learned reward functions based on the new
observations. We validated our method by testing it on three simulated physical
skill learning tasks, demonstrating effective support for our design choices.
- Abstract(参考訳): 身体的スキルに対する報酬関数の学習は、幅広いスキル、状態と行動空間の高次元、ニュアンスされた感覚フィードバックのために困難である。
これらのタスクの複雑さは、専門家による実証データを取得するのにコストと時間を要する。
大規模言語モデル(LLM)は、これらの報酬関数を学習するのに役立つ貴重なタスク関連の知識を含んでいる。
しかし、LLMの報酬関数の直接適用には、数値的不安定性や環境フィードバックを組み込むことができないといった制限がある。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,物理的スキルに対する効率的な報酬関数を作成することを目的とする。
我々のアプローチは2つの要素からなる。
まず LLM を用いて報酬関数の特徴とパラメータ化を提案する。
次に,提案する報酬関数のパラメータを反復的自己調整プロセスを通じて更新する。
特に、このプロセスは、新たな観測結果に基づいて、LLMと学習報酬関数のランキングの不整合を最小化する。
3つの物理スキル学習タスクでテストし,設計選択に対する効果的な支援を実証し,本手法の有効性を検証した。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Value Functions from Undirected State-only Experience [17.76847333440422]
離散決定過程 (MDP) におけるマルコフ・クラーニング(英語版)は、作用空間の任意の洗練の下で同じ値関数を学習することを示す。
この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。
LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:24:36Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。