論文の概要: InTraGen: Trajectory-controlled Video Generation for Object Interactions
- arxiv url: http://arxiv.org/abs/2411.16804v1
- Date: Mon, 25 Nov 2024 14:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:31.338020
- Title: InTraGen: Trajectory-controlled Video Generation for Object Interactions
- Title(参考訳): InTraGen:オブジェクトインタラクションのための軌道制御ビデオ生成
- Authors: Zuhao Liu, Aleksandar Yanev, Ahmad Mahmood, Ivan Nikolov, Saman Motamed, Wei-Shi Zheng, Xi Wang, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
- 参考スコア(独自算出の注目度): 100.79494904451246
- License:
- Abstract: Advances in video generation have significantly improved the realism and quality of created scenes. This has fueled interest in developing intuitive tools that let users leverage video generation as world simulators. Text-to-video (T2V) generation is one such approach, enabling video creation from text descriptions only. Yet, due to the inherent ambiguity in texts and the limited temporal information offered by text prompts, researchers have explored additional control signals like trajectory-guided systems, for more accurate T2V generation. Nonetheless, methods to evaluate whether T2V models can generate realistic interactions between multiple objects are lacking. We introduce InTraGen, a pipeline for improved trajectory-based generation of object interaction scenarios. We propose 4 new datasets and a novel trajectory quality metric to evaluate the performance of the proposed InTraGen. To achieve object interaction, we introduce a multi-modal interaction encoding pipeline with an object ID injection mechanism that enriches object-environment interactions. Our results demonstrate improvements in both visual fidelity and quantitative performance. Code and datasets are available at https://github.com/insait-institute/InTraGen
- Abstract(参考訳): ビデオ生成の進歩は、生成されたシーンのリアリズムと品質を大幅に改善した。
これは、ユーザーが世界シミュレーターとしてビデオ生成を活用できる直感的なツールの開発への関心を喚起した。
テキスト・ツー・ビデオ(T2V)生成はそのようなアプローチの一つであり、テキスト記述のみからビデオを作成することができる。
しかし、テキストに固有の曖昧さとテキストプロンプトによって提供される時間情報の制限により、研究者はより正確なT2V生成のために、軌跡誘導システムのような追加の制御シグナルを探索した。
それでも、T2Vモデルが複数のオブジェクト間の現実的な相互作用を生成できるかどうかを評価する方法は欠如している。
InTraGenは、オブジェクトインタラクションシナリオの軌道ベース生成を改善するパイプラインである。
提案するInTraGenの性能を評価するために,4つの新しいデータセットと新しい軌道品質指標を提案する。
オブジェクトのインタラクションを実現するために,オブジェクトと環境のインタラクションを充実させるオブジェクトID注入機構を備えたマルチモーダルインタラクション符号化パイプラインを導入する。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
コードとデータセットはhttps://github.com/insait-institute/InTraGenで入手できる。
関連論文リスト
- Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。