Fugu-MT 論文翻訳(概要): CamI2V: Camera-Controlled Image-to-Video Diffusion Model

論文の概要: CamI2V: Camera-Controlled Image-to-Video Diffusion Model

arxiv url: http://arxiv.org/abs/2410.15957v2
Date: Tue, 22 Oct 2024 06:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.438762
Title: CamI2V: Camera-Controlled Image-to-Video Diffusion Model
Title（参考訳）: CamI2V:カメラによる画像とビデオの拡散モデル
Authors: Guangcong Zheng, Teng Li, Rui Jiang, Yehao Lu, Tao Wu, Xi Li,
Abstract要約: 本稿では,明示的な物理的制約をモデル設計に統合する必要性を強調した。ノイズ条件の新たな視点から,すべてのクロスフレーム関係をモデル化するためのエピポーラアテンションを提案する。領域外画像への強い一般化を維持しつつ、RealEstate10K上でのカメラ制御性を25.5%向上させる。
参考スコア（独自算出の注目度）: 11.762824216082508
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, camera pose, as a user-friendly and physics-related condition, has been introduced into text-to-video diffusion model for camera control. However, existing methods simply inject camera conditions through a side input. These approaches neglect the inherent physical knowledge of camera pose, resulting in imprecise camera control, inconsistencies, and also poor interpretability. In this paper, we emphasize the necessity of integrating explicit physical constraints into model design. Epipolar attention is proposed for modeling all cross-frame relationships from a novel perspective of noised condition. This ensures that features are aggregated from corresponding epipolar lines in all noised frames, overcoming the limitations of current attention mechanisms in tracking displaced features across frames, especially when features move significantly with the camera and become obscured by noise. Additionally, we introduce register tokens to handle cases without intersections between frames, commonly caused by rapid camera movements, dynamic objects, or occlusions. To support image-to-video, we propose the multiple guidance scale to allow for precise control for image, text, and camera, respectively. Furthermore, we establish a more robust and reproducible evaluation pipeline to solve the inaccuracy and instability of existing camera control measurement. We achieve a 25.5% improvement in camera controllability on RealEstate10K while maintaining strong generalization to out-of-domain images. Only 24GB and 12GB are required for training and inference, respectively. We plan to release checkpoints, along with training and evaluation codes. Dynamic videos are best viewed at https://zgctroy.github.io/CamI2V.
Abstract（参考訳）: 近年,ユーザフレンドリで物理的な条件であるカメラポーズが,カメラ制御のためのテキスト・ビデオ拡散モデルに導入されている。しかし、既存の方法は単にサイド入力によってカメラ条件を注入するだけである。これらのアプローチは、カメラポーズの本質的な物理的知識を無視し、不正確なカメラ制御、不整合、そして解釈可能性の低下をもたらす。本稿では,明示的な物理的制約をモデル設計に統合する必要性を強調した。ノイズ条件の新たな視点から,すべてのクロスフレーム関係をモデル化するためのエピポーラアテンションを提案する。これにより、全てのノイズフレームにおける対応するエピポーラ線から特徴が集約されることが保証され、特にカメラで大きく動き、ノイズによって見えなくなると、フレーム間の変位した特徴を追跡する際の現在の注意機構の限界を克服する。さらに,高速カメラ,ダイナミックオブジェクト,あるいはオクルージョンによって引き起こされるフレーム間の交差のないケースを扱うために,レジスタトークンを導入している。本稿では,画像とテキストとカメラの正確な制御を可能にするマルチガイダンス尺度を提案する。さらに、既存のカメラ制御測定の不正確性と不安定性を解決するため、より堅牢で再現可能な評価パイプラインを構築した。領域外画像への強い一般化を維持しつつ、RealEstate10K上でのカメラ制御性を25.5%向上させる。トレーニングには24GBと12GBしか必要ありません。トレーニングや評価コードとともに、チェックポイントをリリースする予定です。ダイナミックビデオはhttps://zgctroy.github.io/CamI2Vでよく見られる。

関連論文リスト

DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文参考訳（メタデータ） (2025-05-26T08:50:15Z)
FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [10.939379611590333]
RealCam-I2Vは拡散型ビデオ生成フレームワークである。単分子距離深度推定を統合し、前処理ステップで3次元シーン再構成を確立する。トレーニング中、再構成された3Dシーンは、絶対値に対するカメラパラメータのスケーリングを可能にする。 RealCam-I2Vは、RealEstate10Kおよびドメイン外画像の制御性とビデオ品質を大幅に改善する。
論文参考訳（メタデータ） (2025-02-14T10:21:49Z)
FlexEvent: Event Camera Object Detection at Arbitrary Frequencies [45.82637829492951]
イベントカメラは、動的環境におけるリアルタイムの知覚に相容れないアドバンテージを提供する。既存のイベントベースのオブジェクト検出方法は固定周波数パラダイムによって制限される。任意の周波数で検出できる新しいイベントカメラオブジェクト検出フレームワークFlexEventを提案する。
論文参考訳（メタデータ） (2024-12-09T17:57:14Z)
Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。 Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文参考訳（メタデータ） (2024-12-08T18:59:54Z)
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-27T18:49:13Z)
DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-20T13:01:16Z)
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文参考訳（メタデータ） (2024-11-10T16:59:39Z)
Boosting Camera Motion Control for Video Diffusion Transformers [21.151900688555624]
本研究では, トランスフォーマーベース拡散モデル (DiT) がカメラモーションの精度を著しく低下させることを示した。 DiTの持続的な動き劣化に対処するため、カメラモーションガイダンス(CMG)を導入し、カメラ制御を400%以上向上させる。提案手法はU-NetモデルとDiTモデルの両方に適用され,ビデオ生成タスクに改良されたカメラ制御を提供する。
論文参考訳（メタデータ） (2024-10-14T17:58:07Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-06-04T17:27:19Z)
CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文参考訳（メタデータ） (2024-04-02T16:52:41Z)
VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文参考訳（メタデータ） (2024-03-25T17:47:03Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文参考訳（メタデータ） (2024-01-16T05:10:50Z)
Monitoring and Adapting the Physical State of a Camera for Autonomous Vehicles [10.490646039938252]
本稿では,データおよび物理モデルに基づくカメラの汎用的・タスク指向型自己維持フレームワークを提案する。このフレームワークを現実世界の地上車両に実装し、カメラが粗悪な状況に対応するためにパラメータを調整できることを実証する。われわれのフレームワークは、カメラの健康状態を監視し維持するための実用的なソリューションを提供するだけでなく、より高度な問題に対処するための拡張の基盤としても機能する。
論文参考訳（メタデータ） (2021-12-10T11:14:44Z)
FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。 Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文参考訳（メタデータ） (2021-05-05T09:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。