論文の概要: Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.00961v1
- Date: Sun, 30 Nov 2025 16:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.519062
- Title: Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning
- Title(参考訳): 強化学習のためのビデオ拡散モデルによるゴール駆動リワード
- Authors: Qi Wang, Mian Wu, Yuyang Zhang, Mingqi Yuan, Wenyao Zhang, Haoxiang You, Yunbo Wang, Xin Jin, Xiaokang Yang, Wenjun Zeng,
- Abstract要約: 我々は,大規模ビデオデータセット上で事前訓練された市販のビデオ拡散モデルを利用する。
ビデオレベルの報酬については、まずドメイン固有のデータセット上で事前訓練されたビデオ拡散モデルを微調整する。
次に、与えられた状態-動作ペアから目標状態にアクセスする確率をフレームレベルの報酬として、学習した前方方向の表現を用いる。
- 参考スコア(独自算出の注目度): 58.33560203572211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has achieved remarkable success in various domains, yet it often relies on carefully designed programmatic reward functions to guide agent behavior. Designing such reward functions can be challenging and may not generalize well across different tasks. To address this limitation, we leverage the rich world knowledge contained in pretrained video diffusion models to provide goal-driven reward signals for RL agents without ad-hoc design of reward. Our key idea is to exploit off-the-shelf video diffusion models pretrained on large-scale video datasets as informative reward functions in terms of video-level and frame-level goals. For video-level rewards, we first finetune a pretrained video diffusion model on domain-specific datasets and then employ its video encoder to evaluate the alignment between the latent representations of agent's trajectories and the generated goal videos. To enable more fine-grained goal-achievement, we derive a frame-level goal by identifying the most relevant frame from the generated video using CLIP, which serves as the goal state. We then employ a learned forward-backward representation that represents the probability of visiting the goal state from a given state-action pair as frame-level reward, promoting more coherent and goal-driven trajectories. Experiments on various Meta-World tasks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、様々な領域において顕著な成功を収めてきたが、エージェントの振る舞いを導くために、プログラム的な報酬関数を慎重に設計することが多い。
このような報酬関数の設計は困難であり、様々なタスクでうまく一般化できない。
この制限に対処するために、事前訓練されたビデオ拡散モデルに含まれる豊かな世界知識を活用し、報酬のアドホックな設計をすることなく、RLエージェントに対してゴール駆動型報酬信号を提供する。
私たちのキーとなるアイデアは、大規模なビデオデータセットで事前訓練された既製のビデオ拡散モデルを、ビデオレベルの目標とフレームレベルの目標の観点から情報的報酬関数として活用することです。
ビデオレベルの報酬のために、まずドメイン固有のデータセット上で事前訓練されたビデオ拡散モデルを微調整し、そのビデオエンコーダを使用して、エージェントの軌道の潜在表現と生成されたゴールビデオのアライメントを評価する。
よりきめ細かい目標達成を実現するために、CLIPを用いて生成されたビデオから最も関連性の高いフレームを識別することで、フレームレベルの目標を導出する。
次に、与えられた状態-行動ペアから目標状態にアクセスする確率をフレームレベルの報酬として表現し、より一貫性のある目標駆動軌道を推進します。
様々なメタワールドタスクの実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。
インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。
実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文 参考訳(メタデータ) (2025-03-23T21:24:33Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection [51.004020874336284]
VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。
提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。
提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Learning Goals from Failure [30.071336708348472]
ビデオにおける観察可能な人間の行動の背景にある目標を予測する枠組みを導入する。
発達心理学のエビデンスに触発され、意図しない行動のビデオを利用して、直接の監督なしにゴールの映像表現を学習する。
論文 参考訳(メタデータ) (2020-06-28T17:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。