論文の概要: Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.00961v1
- Date: Sun, 30 Nov 2025 16:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.519062
- Title: Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning
- Title(参考訳): 強化学習のためのビデオ拡散モデルによるゴール駆動リワード
- Authors: Qi Wang, Mian Wu, Yuyang Zhang, Mingqi Yuan, Wenyao Zhang, Haoxiang You, Yunbo Wang, Xin Jin, Xiaokang Yang, Wenjun Zeng,
- Abstract要約: 我々は,大規模ビデオデータセット上で事前訓練された市販のビデオ拡散モデルを利用する。
ビデオレベルの報酬については、まずドメイン固有のデータセット上で事前訓練されたビデオ拡散モデルを微調整する。
次に、与えられた状態-動作ペアから目標状態にアクセスする確率をフレームレベルの報酬として、学習した前方方向の表現を用いる。
- 参考スコア(独自算出の注目度): 58.33560203572211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has achieved remarkable success in various domains, yet it often relies on carefully designed programmatic reward functions to guide agent behavior. Designing such reward functions can be challenging and may not generalize well across different tasks. To address this limitation, we leverage the rich world knowledge contained in pretrained video diffusion models to provide goal-driven reward signals for RL agents without ad-hoc design of reward. Our key idea is to exploit off-the-shelf video diffusion models pretrained on large-scale video datasets as informative reward functions in terms of video-level and frame-level goals. For video-level rewards, we first finetune a pretrained video diffusion model on domain-specific datasets and then employ its video encoder to evaluate the alignment between the latent representations of agent's trajectories and the generated goal videos. To enable more fine-grained goal-achievement, we derive a frame-level goal by identifying the most relevant frame from the generated video using CLIP, which serves as the goal state. We then employ a learned forward-backward representation that represents the probability of visiting the goal state from a given state-action pair as frame-level reward, promoting more coherent and goal-driven trajectories. Experiments on various Meta-World tasks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、様々な領域において顕著な成功を収めてきたが、エージェントの振る舞いを導くために、プログラム的な報酬関数を慎重に設計することが多い。
このような報酬関数の設計は困難であり、様々なタスクでうまく一般化できない。
この制限に対処するために、事前訓練されたビデオ拡散モデルに含まれる豊かな世界知識を活用し、報酬のアドホックな設計をすることなく、RLエージェントに対してゴール駆動型報酬信号を提供する。
私たちのキーとなるアイデアは、大規模なビデオデータセットで事前訓練された既製のビデオ拡散モデルを、ビデオレベルの目標とフレームレベルの目標の観点から情報的報酬関数として活用することです。
ビデオレベルの報酬のために、まずドメイン固有のデータセット上で事前訓練されたビデオ拡散モデルを微調整し、そのビデオエンコーダを使用して、エージェントの軌道の潜在表現と生成されたゴールビデオのアライメントを評価する。
よりきめ細かい目標達成を実現するために、CLIPを用いて生成されたビデオから最も関連性の高いフレームを識別することで、フレームレベルの目標を導出する。
次に、与えられた状態-行動ペアから目標状態にアクセスする確率をフレームレベルの報酬として表現し、より一貫性のある目標駆動軌道を推進します。
様々なメタワールドタスクの実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。
インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。
実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文 参考訳(メタデータ) (2025-03-23T21:24:33Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection [51.004020874336284]
VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。
提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。
提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Learning Goals from Failure [30.071336708348472]
ビデオにおける観察可能な人間の行動の背景にある目標を予測する枠組みを導入する。
発達心理学のエビデンスに触発され、意図しない行動のビデオを利用して、直接の監督なしにゴールの映像表現を学習する。
論文 参考訳(メタデータ) (2020-06-28T17:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。