論文の概要: OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
- arxiv url: http://arxiv.org/abs/2601.14250v1
- Date: Tue, 20 Jan 2026 18:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.462663
- Title: OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
- Title(参考訳): OmniTransfer:時空間ビデオ転送のためのオールインワンフレームワーク
- Authors: Pengze Zhang, Yanze Wu, Mengtian Li, Xu Bai, Songtao Zhao, Fulong Ye, Chong Mou, Xinghui Li, Zhuowei Chen, Qian He, Mingyuan Gao,
- Abstract要約: 統合ビデオ転送のためのOmni-temporal frameworkを提案する。
ビデオフレーム間のマルチビュー情報を活用して、外観整合性を高める。
時間的手がかりを利用して、きめ細かい時間的制御を可能にする。
- 参考スコア(独自算出の注目度): 38.324957777123664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.
- Abstract(参考訳): ビデオは画像やテキストよりも豊かな情報を伝達し、空間力学と時間力学の両方をキャプチャする。
しかし、既存のビデオのカスタマイズ手法の多くは、参照画像やタスク固有の時間的事前情報に依存しており、ビデオに固有の豊富な時空間情報を完全に活用できないため、ビデオ生成の柔軟性と一般化が制限される。
これらの制約に対処するため,時空間ビデオ転送のための統合フレームワークであるOmniTransferを提案する。
フレーム間の多視点情報を活用して外観整合性を高め、時間的手がかりを活用してきめ細かい時間的制御を可能にする。
様々なビデオ転送タスクを統合するために、OmniTransferは3つの重要な設計を取り入れている: タスク認識位置バイアスは、時間的アライメントや外観整合性を改善するために参照映像情報を適応的に活用する。
広汎な実験により,OmniTransferは既存の動作法(IDとスタイル)や時間移動法(カメラの動きと映像効果)よりも優れており,ポーズを使わずにポーズ誘導法と一致し,フレキシブルで高忠実な映像生成のための新たなパラダイムが確立された。
関連論文リスト
- Motion Marionette: Rethinking Rigid Motion Transfer via Prior Guidance [26.642143303176997]
Motion Marionetteは、モノクルソースビデオからシングルビューターゲット画像への厳格なモーション転送のためのフレームワークである。
動画から動き軌跡を抽出して空間時間(SpaT)を予め構築する。
結果の速度場は、効率的なビデオ制作に柔軟に利用することができる。
論文 参考訳(メタデータ) (2025-11-25T04:34:42Z) - Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-03T10:03:56Z) - TransFlow: Motion Knowledge Transfer from Video Diffusion Models to Video Salient Object Detection [14.635179908525389]
本稿では,事前学習した映像拡散モデルから動きの知識を伝達し,映像の有能な物体検出のためのリアルなトレーニングデータを生成するTransFlowを提案する。
提案手法は,複数のベンチマークにまたがる性能向上を実現し,効果的な動作知識の伝達を実証する。
論文 参考訳(メタデータ) (2025-07-26T04:30:44Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。
本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。
我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文 参考訳(メタデータ) (2025-03-25T05:51:14Z) - CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers [15.558659099600822]
CustomVideoXは、LoRAパラメータをトレーニングして参照機能を抽出することで、事前トレーニングされたビデオネットワークを活用する。
本稿では,参照画像特徴の直接的かつ同時エンゲージメントを可能にする3D参照注意を提案する。
実験の結果, CustomVideoXはビデオの一貫性や品質という点で既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-10T14:50:32Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。