論文の概要: TeViR: Text-to-Video Reward with Diffusion Models for Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19769v1
- Date: Mon, 26 May 2025 09:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.34165
- Title: TeViR: Text-to-Video Reward with Diffusion Models for Efficient Reinforcement Learning
- Title(参考訳): TeViR:効率的な強化学習のための拡散モデル付きテキスト・ビデオ・リワード
- Authors: Yuhui Chen, Haoran Li, Zhennan Jiang, Haowei Wen, Dongbin Zhao,
- Abstract要約: 本稿では,事前学習したテキスト・ビデオ拡散モデルを利用して高密度報酬を生成するTeViRを提案する。
11の複雑なロボットタスクに対する実験結果は、TeViRが従来の手法より優れていることを示している。
複雑な環境でエージェントを効率的に誘導するTeViRの能力は、ロボット操作における強化学習の応用を前進させる可能性を強調している。
- 参考スコア(独自算出の注目度): 11.228053840395495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing scalable and generalizable reward engineering for reinforcement learning (RL) is crucial for creating general-purpose agents, especially in the challenging domain of robotic manipulation. While recent advances in reward engineering with Vision-Language Models (VLMs) have shown promise, their sparse reward nature significantly limits sample efficiency. This paper introduces TeViR, a novel method that leverages a pre-trained text-to-video diffusion model to generate dense rewards by comparing the predicted image sequence with current observations. Experimental results across 11 complex robotic tasks demonstrate that TeViR outperforms traditional methods leveraging sparse rewards and other state-of-the-art (SOTA) methods, achieving better sample efficiency and performance without ground truth environmental rewards. TeViR's ability to efficiently guide agents in complex environments highlights its potential to advance reinforcement learning applications in robotic manipulation.
- Abstract(参考訳): 強化学習(RL)のためのスケーラブルで一般化可能な報酬工学の開発は、汎用エージェントを作成する上で、特にロボット操作の困難な領域において不可欠である。
近年のビジョン・ランゲージ・モデル(VLM)による報酬工学の進歩は有望であるが、そのスパース報酬の性質はサンプル効率を著しく制限している。
本稿では,事前学習したテキスト・ビデオ拡散モデルを用いて,予測画像列と現在の観測値を比較することで,高密度報酬を生成するTeViRを提案する。
11の複雑なロボットタスクにまたがる実験の結果、TeViRはスパース報酬やその他の最先端技術(SOTA)手法を活用する従来の手法より優れており、真理条件のないサンプル効率と性能が向上していることが示された。
複雑な環境でエージェントを効率的に誘導するTeViRの能力は、ロボット操作における強化学習の応用を前進させる可能性を強調している。
関連論文リスト
- Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
強化学習(Reinforcement Learning, RL)は、エージェントが対話や報酬信号を通じて、複雑な振る舞いを自律的に最適化することを可能にする。
本研究では,自然言語タスク記述から直接報酬関数を生成するために,事前学習されたLLMであるGPT-4を利用した教師なしパイプラインを提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
論文 参考訳(メタデータ) (2025-03-06T10:08:44Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。