論文の概要: TACO: Taming Diffusion for in-the-wild Video Amodal Completion
- arxiv url: http://arxiv.org/abs/2503.12049v1
- Date: Sat, 15 Mar 2025 08:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:33.833121
- Title: TACO: Taming Diffusion for in-the-wild Video Amodal Completion
- Title(参考訳): TACO:動画のアモーダル・コンプリートに挑戦
- Authors: Ruijie Lu, Yixin Chen, Yu Liu, Jiaxiang Tang, Junfeng Ni, Diwen Wan, Gang Zeng, Siyuan Huang,
- Abstract要約: 本稿では,ビデオ全体を通して一貫したオブジェクトを生成することを目的とした,ビデオ・アモーダル・コンプリート(VAC)の課題に取り組む。
本稿では,事前学習したビデオ拡散モデルを利用した条件付き拡散モデルTACOを提案する。
TACOの汎用性は、インターネットから広範囲のWildビデオと、自律運転で一般的に使用される多様な未確認データセットで実証する。
- 参考スコア(独自算出の注目度): 32.474824991167424
- License:
- Abstract: Humans can infer complete shapes and appearances of objects from limited visual cues, relying on extensive prior knowledge of the physical world. However, completing partially observable objects while ensuring consistency across video frames remains challenging for existing models, especially for unstructured, in-the-wild videos. This paper tackles the task of Video Amodal Completion (VAC), which aims to generate the complete object consistently throughout the video given a visual prompt specifying the object of interest. Leveraging the rich, consistent manifolds learned by pre-trained video diffusion models, we propose a conditional diffusion model, TACO, that repurposes these manifolds for VAC. To enable its effective and robust generalization to challenging in-the-wild scenarios, we curate a large-scale synthetic dataset with multiple difficulty levels by systematically imposing occlusions onto un-occluded videos. Building on this, we devise a progressive fine-tuning paradigm that starts with simpler recovery tasks and gradually advances to more complex ones. We demonstrate TACO's versatility on a wide range of in-the-wild videos from Internet, as well as on diverse, unseen datasets commonly used in autonomous driving, robotic manipulation, and scene understanding. Moreover, we show that TACO can be effectively applied to various downstream tasks like object reconstruction and pose estimation, highlighting its potential to facilitate physical world understanding and reasoning. Our project page is available at https://jason-aplp.github.io/TACO.
- Abstract(参考訳): 人間は物体の完全な形や外観を限られた視覚的手がかりから推測することができる。
しかし、ビデオフレーム間の整合性を確保しながら部分的に観察可能なオブジェクトを完成させることは、既存のモデル、特に非構造化のインザワイルドビデオにとって依然として困難である。
本稿では,対象物を特定する視覚的プロンプトが与えられたビデオ全体を通して,完全なオブジェクトを連続的に生成することを目的とした,ビデオ・アモーダル・コンプリート(VAC)の課題に取り組む。
事前学習したビデオ拡散モデルにより学習されたリッチで一貫した多様体を活用し、これらの多様体をVACに再利用する条件付き拡散モデルTACOを提案する。
そこで本研究では,非閉塞ビデオにオクルージョンを体系的に付与することにより,複数の難易度を有する大規模合成データセットをキュレートする。
これに基づいて、より単純なリカバリタスクから始まり、徐々により複雑なタスクへと進むプログレッシブな微調整パラダイムを考案する。
TACOの汎用性は、インターネットから幅広い範囲の動画や、自律運転、ロボット操作、シーン理解によく使われる、目に見えない多様なデータセットで実証する。
さらに,TACOはオブジェクト再構成やポーズ推定など,さまざまな下流タスクに効果的に適用可能であることを示し,物理世界理解と推論を容易にする可能性を強調した。
プロジェクトページはhttps://jason-aplp.github.io/TACO.comで公開されている。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。