論文の概要: Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback
- arxiv url: http://arxiv.org/abs/2412.02617v1
- Date: Tue, 03 Dec 2024 17:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:07.753602
- Title: Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback
- Title(参考訳): AIフィードバックによるテキスト・ビデオ生成における動的オブジェクトインタラクションの改善
- Authors: Hiroki Furuta, Heiga Zen, Dale Schuurmans, Aleksandra Faust, Yutaka Matsuo, Percy Liang, Sherry Yang,
- Abstract要約: テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
- 参考スコア(独自算出の注目度): 130.090296560882
- License:
- Abstract: Large text-to-video models hold immense potential for a wide range of downstream applications. However, these models struggle to accurately depict dynamic object interactions, often resulting in unrealistic movements and frequent violations of real-world physics. One solution inspired by large language models is to align generated outputs with desired outcomes using external feedback. This enables the model to refine its responses autonomously, eliminating extensive manual data collection. In this work, we investigate the use of feedback to enhance the object dynamics in text-to-video models. We aim to answer a critical question: what types of feedback, paired with which specific self-improvement algorithms, can most effectively improve text-video alignment and realistic object interactions? We begin by deriving a unified probabilistic objective for offline RL finetuning of text-to-video models. This perspective highlights how design elements in existing algorithms like KL regularization and policy projection emerge as specific choices within a unified framework. We then use derived methods to optimize a set of text-video alignment metrics (e.g., CLIP scores, optical flow), but notice that they often fail to align with human perceptions of generation quality. To address this limitation, we propose leveraging vision-language models to provide more nuanced feedback specifically tailored to object dynamics in videos. Our experiments demonstrate that our method can effectively optimize a wide variety of rewards, with binary AI feedback driving the most significant improvements in video quality for dynamic interactions, as confirmed by both AI and human evaluations. Notably, we observe substantial gains when using reward signals derived from AI feedback, particularly in scenarios involving complex interactions between multiple objects and realistic depictions of objects falling.
- Abstract(参考訳): 大規模なテキスト・ビデオモデルは、幅広いダウンストリームアプリケーションにとって大きな可能性を秘めている。
しかし、これらのモデルは動的物体の相互作用を正確に描写するのに苦労し、しばしば非現実的な動きや現実世界の物理学に頻繁に違反する。
大きな言語モデルにインスパイアされた解決策の1つは、生成された出力を、外部からのフィードバックを使って望ましい結果と整合させることである。
これにより、モデルが自律的に応答を洗練し、広範な手動データ収集を排除できる。
本研究では,テキスト・ビデオ・モデルにおけるオブジェクト・ダイナミックス向上のためのフィードバックの利用について検討する。
特定の自己改善アルゴリズムと組み合わせることで、テキスト・ビデオのアライメントと現実的なオブジェクトインタラクションを最も効果的に改善できる、どのようなタイプのフィードバックがあるのか?
まず、テキスト・ビデオモデルのオフラインRL微調整のための統一的確率的目的を導出することから始める。
この視点は、統一されたフレームワーク内で特定の選択として、KL正規化やポリシープロジェクションのような既存のアルゴリズムの設計要素がどのように現われるかを強調します。
次に、導出した手法を用いて、テキスト・ビデオアライメントの指標(例えば、CLIPスコア、光学フロー)を最適化するが、それらが生成品質の人間の知覚と一致しないことが多いことに気付く。
この制限に対処するために、ビデオ内のオブジェクトのダイナミクスに合わせて、より微妙なフィードバックを提供するために、視覚言語モデルを活用することを提案する。
我々の実験は、我々の手法が様々な報酬を効果的に最適化できることを示し、AIと人間の両方の評価によって確認されたように、バイナリAIフィードバックは動的相互作用におけるビデオ品質の最も重要な改善を駆動する。
特に、AIフィードバックから得られる報酬信号を使用する場合、特に複数のオブジェクト間の複雑な相互作用や、落下するオブジェクトの現実的な描写を含むシナリオにおいて、かなりの利益が得られます。
関連論文リスト
- Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。