論文の概要: CamContextI2V: Context-aware Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2504.06022v1
- Date: Tue, 08 Apr 2025 13:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:39.022288
- Title: CamContextI2V: Context-aware Controllable Video Generation
- Title(参考訳): CamContextI2V: コンテキスト対応制御可能なビデオ生成
- Authors: Luis Denninger, Sina Mokhtarzadeh Azar, Juergen Gall,
- Abstract要約: CamContextI2Vは、複数の画像条件と3D制約をカメラコントロールと統合し、グローバルなセマンティクスときめ細かい視覚的詳細の両方を強化する。
RealEstate10Kデータセットに関する包括的な研究は、視覚的品質とカメラの制御性の改善を実証している。
- 参考スコア(独自算出の注目度): 12.393723748030235
- License:
- Abstract: Recently, image-to-video (I2V) diffusion models have demonstrated impressive scene understanding and generative quality, incorporating image conditions to guide generation. However, these models primarily animate static images without extending beyond their provided context. Introducing additional constraints, such as camera trajectories, can enhance diversity but often degrades visual quality, limiting their applicability for tasks requiring faithful scene representation. We propose CamContextI2V, an I2V model that integrates multiple image conditions with 3D constraints alongside camera control to enrich both global semantics and fine-grained visual details. This enables more coherent and context-aware video generation. Moreover, we motivate the necessity of temporal awareness for an effective context representation. Our comprehensive study on the RealEstate10K dataset demonstrates improvements in visual quality and camera controllability. We make our code and models publicly available at: https://github.com/LDenninger/CamContextI2V.
- Abstract(参考訳): 近年,イメージ・ツー・ビデオ(I2V)拡散モデルにより,映像の理解と生成の質が向上し,画像条件を取り入れて生成を誘導している。
しかし、これらのモデルは提供されたコンテキストを超えて拡張することなく、主に静的イメージをアニメーション化する。
カメラトラジェクトリなどの追加制約の導入は、多様性を高めることができるが、しばしば視覚的品質を低下させ、忠実なシーン表現を必要とするタスクに適用性を制限する。
I2VモデルであるCamContextI2Vを提案する。このモデルでは、複数の画像条件と3次元制約をカメラ制御と組み合わせることで、グローバルなセマンティクスと細かな視覚的詳細の両方を拡張できる。
これにより、よりコヒーレントでコンテキスト対応のビデオ生成が可能になる。
さらに,効果的な文脈表現のための時間的認識の必要性を動機づける。
RealEstate10Kデータセットに関する包括的な研究は、視覚的品質とカメラの制御性の改善を実証している。
私たちは、コードとモデルをhttps://github.com/LDenninger/CamContextI2Vで公開しています。
関連論文リスト
- RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [10.939379611590333]
RealCam-I2Vは拡散型ビデオ生成フレームワークである。
単分子距離深度推定を統合し、前処理ステップで3次元シーン再構成を確立する。
トレーニング中、再構成された3Dシーンは、絶対値に対するカメラパラメータのスケーリングを可能にする。
RealCam-I2Vは、RealEstate10Kおよびドメイン外画像の制御性とビデオ品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-14T10:21:49Z) - SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation [22.693060144042196]
画像からビデオへ生成する方法は、印象的な、写真リアリスティックな品質を実現した。
オブジェクトの動きやカメラの動きなど、生成されたビデオの特定の要素を調整することは、しばしば試行錯誤の面倒なプロセスである。
最近の技術は、事前訓練されたモデルを微調整することでこの問題に対処している。
本稿では,自己誘導画像生成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-07T18:56:11Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data [14.489919164476982]
高品質な(本社)ビデオ合成は、現実世界に多様で複雑な動きがあったため困難である。
既存の作品の多くは、大規模なキャプションを集めることでこの問題に対処するのに苦労しており、コミュニティにはアクセスできない。
制限付き低品質(LQ)のデータを公開することにより,再カプセル化や微調整を行わずにHQビデオジェネレータをトレーニングできることを示す。
論文 参考訳(メタデータ) (2024-08-19T16:08:00Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。
現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:40:01Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。