論文の概要: Occlusion-Aware Video Object Inpainting
- arxiv url: http://arxiv.org/abs/2108.06765v1
- Date: Sun, 15 Aug 2021 15:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 02:16:36.628116
- Title: Occlusion-Aware Video Object Inpainting
- Title(参考訳): Occlusion-Aware Video Object Inpainting
- Authors: Lei Ke, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: 本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
- 参考スコア(独自算出の注目度): 72.38919601150175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional video inpainting is neither object-oriented nor occlusion-aware,
making it liable to obvious artifacts when large occluded object regions are
inpainted. This paper presents occlusion-aware video object inpainting, which
recovers both the complete shape and appearance for occluded objects in videos
given their visible mask segmentation.
To facilitate this new research, we construct the first large-scale video
object inpainting benchmark YouTube-VOI to provide realistic occlusion
scenarios with both occluded and visible object masks available. Our technical
contribution VOIN jointly performs video object shape completion and occluded
texture generation. In particular, the shape completion module models
long-range object coherence while the flow completion module recovers accurate
flow with sharp motion boundary, for propagating temporally-consistent texture
to the same moving object across frames. For more realistic results, VOIN is
optimized using both T-PatchGAN and a new spatio-temporal attention-based
multi-class discriminator.
Finally, we compare VOIN and strong baselines on YouTube-VOI. Experimental
results clearly demonstrate the efficacy of our method including inpainting
complex and dynamic objects. VOIN degrades gracefully with inaccurate input
visible mask.
- Abstract(参考訳): 従来のビデオのインペイントはオブジェクト指向でもオクルージョン認識でもないので、大きなオブクルードされたオブジェクト領域がインペイントされたときに、明らかなアーティファクトに義務付けられる。
そこで本稿では,目に見えるマスクのセグメンテーションにより,映像中のオクルージョン物体の形状と外観を復元するオクルージョンアウェアビデオオブジェクト・インパインティングを提案する。
この新たな研究を促進するため、我々はYouTube-VOIの最初の大規模ビデオオブジェクト塗装ベンチマークを構築し、隠蔽マスクと可視マスクの両方で現実的な閉塞シナリオを提供する。
私たちの技術貢献voinはビデオオブジェクト形状補完とオクルードテクスチャ生成を共同で行う。
特に、形状完了モジュールは、フロー完了モジュールがシャープな動き境界で正確な流れを回復する間、長距離物体コヒーレンスをモデル化し、時間的に一貫性のあるテクスチャをフレーム間の同じ移動物体に伝播させる。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時空間注意に基づくマルチクラス判別器の両方を用いて最適化されている。
最後に、VOINとYouTube-VOIの強力なベースラインを比較します。
複雑な物体や動的物体の塗布を含む方法の有効性を実験的に明らかにした。
VOINは不正確な入力可視マスクで優雅に劣化する。
関連論文リスト
- InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models [46.587906540660455]
InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いて導入する。
InViは、フレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-15T17:55:09Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation
with Neural Radiance Fields [53.32527220134249]
ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。
現在の手法では、時間を要するオブジェクトのラベル付け、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の妥協といった課題に直面している。
本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-17T18:18:05Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Neural Assets: Volumetric Object Capture and Rendering for Interactive
Environments [8.258451067861932]
本研究では,現実の物体を日常の環境に忠実かつ迅速に捕獲する手法を提案する。
我々は、新しい神経表現を用いて、透明な物体部品などの効果を再構築し、物体の外観を保ちます。
これにより、提案されたニューラルネットワークアセットを既存のメッシュ環境やオブジェクトとシームレスに統合することが可能になる。
論文 参考訳(メタデータ) (2022-12-12T18:55:03Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。