論文の概要: Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning
- arxiv url: http://arxiv.org/abs/2412.05515v1
- Date: Sat, 07 Dec 2024 03:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:23.365703
- Title: Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning
- Title(参考訳): Video2Reward:レッグ型ロボット行動学習のためのビデオからリワード関数を生成する
- Authors: Runhao Zeng, Dingjie Zhou, Qiwei Liang, Junlin Liu, Hui Li, Changxin Huang, Jianqiang Li, Xiping Hu, Fuchun Sun,
- Abstract要約: そこで本研究では,シミュレーションや学習を行うビデオから報酬関数を直接生成する,新しい video2reward 手法を提案する。
本手法は,人間の正規化スコアにおいて,最先端のLCMに基づく報酬生成手法の性能を37.6%以上上回る。
- 参考スコア(独自算出の注目度): 27.233232260388682
- License:
- Abstract: Learning behavior in legged robots presents a significant challenge due to its inherent instability and complex constraints. Recent research has proposed the use of a large language model (LLM) to generate reward functions in reinforcement learning, thereby replacing the need for manually designed rewards by experts. However, this approach, which relies on textual descriptions to define learning objectives, fails to achieve controllable and precise behavior learning with clear directionality. In this paper, we introduce a new video2reward method, which directly generates reward functions from videos depicting the behaviors to be mimicked and learned. Specifically, we first process videos containing the target behaviors, converting the motion information of individuals in the videos into keypoint trajectories represented as coordinates through a video2text transforming module. These trajectories are then fed into an LLM to generate the reward function, which in turn is used to train the policy. To enhance the quality of the reward function, we develop a video-assisted iterative reward refinement scheme that visually assesses the learned behaviors and provides textual feedback to the LLM. This feedback guides the LLM to continually refine the reward function, ultimately facilitating more efficient behavior learning. Experimental results on tasks involving bipedal and quadrupedal robot motion control demonstrate that our method surpasses the performance of state-of-the-art LLM-based reward generation methods by over 37.6% in terms of human normalized score. More importantly, by switching video inputs, we find our method can rapidly learn diverse motion behaviors such as walking and running.
- Abstract(参考訳): 脚のあるロボットの学習行動は、その固有の不安定性と複雑な制約のため、重大な課題を呈している。
近年の研究では、強化学習において報酬関数を生成するために大きな言語モデル(LLM)が提案されている。
しかし、この手法は、学習目的を定義するためにテキスト記述に依存しており、明確な方向性を持つ制御可能で正確な行動学習を達成できない。
本稿では,模倣や学習を行う映像から報酬関数を直接生成する,新しい video2reward 手法を提案する。
具体的には、まず、対象の動作を含む動画を処理し、ビデオ中の個人の動き情報を、ビデオ2テキスト変換モジュールを介して座標として表されるキーポイント軌跡に変換する。
これらの軌道は LLM に供給され、報酬関数が生成される。
報奨関数の質を高めるために,学習行動の視覚的評価とLLMへのテキストフィードバックを提供するビデオ支援反復報酬改善手法を開発した。
このフィードバックはLLMに報酬関数を継続的に洗練させ、最終的にはより効率的な行動学習を促進させる。
両足歩行ロボットと四足歩行ロボットの動作制御に関わる課題に関する実験結果から,本手法は人間の正規化スコアにおいて,最先端のLCMに基づく報酬生成手法の性能を37.6%以上上回ることを示した。
さらに,映像入力を切り替えることで,歩行やランニングなどの多様な動作行動の学習を迅速に行うことができることがわかった。
関連論文リスト
- Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos [48.2044649011213]
我々は、強化学習エージェントがインターネットビデオから報酬を学べるように、言語モデル支援のバイレベルプログラミングフレームワークを導入する。
このフレームワークは、視覚言語モデル(VLM)が学習者の振る舞いをエキスパートビデオと比較することでフィードバックを提供する上位レベルと、このフィードバックを報酬更新に変換する大規模言語モデル(LLM)の下位レベルである。
そこで本研究では,YouTubeビデオから報酬を学習する手法を検証するとともに,提案手法が生物エージェントのエキスパートビデオから効率的に報酬をデザインできることを示した。
論文 参考訳(メタデータ) (2024-10-11T22:31:39Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - CLIP-Motion: Learning Reward Functions for Robotic Actions Using Consecutive Observations [1.03590082373586]
本稿では,CLIPモデルを用いたロボット動作に対する報酬関数の学習手法を提案する。
当社のアプローチでは,状態特徴と画像入力を効果的に処理するCLIPの機能を活用することで,この問題を回避することができる。
論文 参考訳(メタデータ) (2023-11-06T19:48:03Z) - Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文 参考訳(メタデータ) (2023-10-21T19:10:06Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。