論文の概要: TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
- arxiv url: http://arxiv.org/abs/2509.26627v1
- Date: Tue, 30 Sep 2025 17:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.656386
- Title: TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance
- Title(参考訳): TimeRewarder:フレームワイド時間距離による受動的ビデオからのディエンス・リワード学習
- Authors: Yuyang Liu, Chuan Wen, Yihang Hu, Dinesh Jayaraman, Yang Gao,
- Abstract要約: TimeRewarderは、受動的ビデオから進捗推定信号を導出する、シンプルで効果的な報酬学習手法である。
TimeRewarderはスパース・リワードタスクのRLを大幅に改善し、タスク1タスク当たり20,000のインタラクションしか持たない9/10タスクでほぼ完璧に成功することを示す。
- 参考スコア(独自算出の注目度): 36.22149703563646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing dense rewards is crucial for reinforcement learning (RL), yet in robotics it often demands extensive manual effort and lacks scalability. One promising solution is to view task progress as a dense reward signal, as it quantifies the degree to which actions advance the system toward task completion over time. We present TimeRewarder, a simple yet effective reward learning method that derives progress estimation signals from passive videos, including robot demonstrations and human videos, by modeling temporal distances between frame pairs. We then demonstrate how TimeRewarder can supply step-wise proxy rewards to guide reinforcement learning. In our comprehensive experiments on ten challenging Meta-World tasks, we show that TimeRewarder dramatically improves RL for sparse-reward tasks, achieving nearly perfect success in 9/10 tasks with only 200,000 interactions per task with the environment. This approach outperformed previous methods and even the manually designed environment dense reward on both the final success rate and sample efficiency. Moreover, we show that TimeRewarder pretraining can exploit real-world human videos, highlighting its potential as a scalable approach path to rich reward signals from diverse video sources.
- Abstract(参考訳): 密度の高い報酬を設計することは強化学習(RL)にとって重要であるが、ロボット工学では手作業による広範囲な作業を必要とし、スケーラビリティに欠けることが多い。
1つの有望な解決策は、タスクの進行がタスク完了に向けてシステムを進める度合いを時間とともに定量化するため、タスクの進行を高密度な報酬信号として見ることである。
本稿では,ロボットデモや人間ビデオを含む受動的ビデオから,フレームペア間の時間的距離をモデル化し,進捗推定信号を導出する,シンプルで効果的な報酬学習手法であるTimeRewarderを提案する。
次に、強化学習をガイドするためにTimeRewarderがステップワイドなプロキシ報酬を提供する方法を紹介します。
課題10つのMeta-Worldタスクに関する総合的な実験において、TimeRewarderはスパース・リワードタスクのRLを劇的に改善し、タスク1タスク当たり20,000のインタラクションしか持たない9/10タスクでほぼ完璧に成功することを示した。
このアプローチは従来の手法よりも優れており、最終的な成功率とサンプル効率の両面で、手作業で設計した環境でも高い報酬を得られる。
さらに,TimeRewarderの事前学習は実世界の人間ビデオを利用することが可能であり,多様なビデオソースからの報奨信号に対するスケーラブルなアプローチパスとしての可能性を強調した。
関連論文リスト
- On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-Contrastive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks [26.730889757506915]
我々は,多段階タスクにおける再利用可能な高密度報酬を学習するための新しいアプローチであるDrS(Dense reward Learning from Stages)を提案する。
タスクのステージ構造を活用することで、DrSはスパース報酬やデモから高品質の高密度報酬を学ぶ。
1000以上のタスク変異を持つ3つの物理的ロボット操作タスクファミリーの実験は、学習した報酬を目に見えないタスクで再利用できることを実証している。
論文 参考訳(メタデータ) (2024-04-25T17:28:33Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z) - Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards [1.2691047660244335]
SILCR(Constant Reward)を用いた自己刺激学習法を提案する。
提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。
我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-14T11:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。