論文の概要: VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion
- arxiv url: http://arxiv.org/abs/2503.10678v1
- Date: Tue, 11 Mar 2025 06:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:46.779710
- Title: VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion
- Title(参考訳): VRMDiff:テキストガイド付きビデオは拡散の発生を再現する
- Authors: Lehan Yang, Jincen Song, Tianlong Wang, Daiqing Qi, Weili Shi, Yuheng Liu, Sheng Li,
- Abstract要約: 本稿では,参照キャプションを入力して,特定のインスタンスのアルファマットを取得する,新しいタスクであるビデオ参照マットを提案する。
本稿では,ビデオ拡散モデルに先行するテキスト間アライメントを利用して,マットの密接な予測タスクを映像生成として扱う。
大規模なビデオ参照マッチングデータセットを1万本導入した。
- 参考スコア(独自算出の注目度): 9.465414294387507
- License:
- Abstract: We propose a new task, video referring matting, which obtains the alpha matte of a specified instance by inputting a referring caption. We treat the dense prediction task of matting as video generation, leveraging the text-to-video alignment prior of video diffusion models to generate alpha mattes that are temporally coherent and closely related to the corresponding semantic instances. Moreover, we propose a new Latent-Constructive loss to further distinguish different instances, enabling more controllable interactive matting. Additionally, we introduce a large-scale video referring matting dataset with 10,000 videos. To the best of our knowledge, this is the first dataset that concurrently contains captions, videos, and instance-level alpha mattes. Extensive experiments demonstrate the effectiveness of our method. The dataset and code are available at https://github.com/Hansxsourse/VRMDiff.
- Abstract(参考訳): 本稿では,参照キャプションを入力して,特定のインスタンスのアルファマットを取得する,新しいタスクであるビデオ参照マットを提案する。
本研究では,映像拡散モデルに先行するテキストとビデオのアライメントを活用し,時間的に一貫性があり,対応するセマンティック・インスタンスと密接な関係を持つアルファ・マットを生成することにより,マットの密接な予測タスクを映像生成として扱う。
さらに,異なるインスタンスを識別し,より制御可能なインタラクティブなマッティングを実現するために,新たなラテント・コンストラクティブ・ロスを提案する。
さらに,1万本のビデオを用いた大規模ビデオ参照マッチングデータセットについても紹介する。
私たちの知る限りでは、これはキャプション、ビデオ、インスタンスレベルのアルファマットを同時に含む最初のデータセットです。
大規模な実験により,本手法の有効性が示された。
データセットとコードはhttps://github.com/Hansxsourse/VRMDiffで公開されている。
関連論文リスト
- GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning [20.210972863275924]
本稿では,1つの粒度データセットの粒度を拡大するために,積分演算と圧縮演算を併用した粒度拡張(GEX)手法を提案する。
IAM(Iterative Approximation Module)を導入し,複数の粒度の動画やテキストを統一された低次元セマンティック空間に埋め込む。
我々は7つのベンチマークデータセットにまたがるビデオタスクの3つのカテゴリに関する作業を評価し、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-10T17:50:53Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。