論文の概要: Physics-Aware Video Instance Removal Benchmark
- arxiv url: http://arxiv.org/abs/2604.05898v1
- Date: Tue, 07 Apr 2026 14:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.868052
- Title: Physics-Aware Video Instance Removal Benchmark
- Title(参考訳): 物理対応ビデオインスタンス除去ベンチマーク
- Authors: Zirui Li, Xinghao Chen, Lingyu Jiang, Dengzhe Hou, Fangzhou Lin, Kazunori Yamada, Xiangbo Gao, Zhengzhong Tu,
- Abstract要約: ビデオインスタンス削除(VIR)では、バックグラウンドの整合性と物理的な整合性を維持しながら、対象オブジェクトを削除する必要がある。
現在のベンチマークでは、主に視覚的可視性を評価しており、しばしばリングリングシャドーのような物理的因果性を見下ろしている。
我々は、95の高品質なビデオに、高精度なマスクと削除プロンプトを付加した物理対応ビデオインスタンス除去ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 23.60215680694382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Instance Removal (VIR) requires removing target objects while maintaining background integrity and physical consistency, such as specular reflections and illumination interactions. Despite advancements in text-guided editing, current benchmarks primarily assess visual plausibility, often overlooking the physical causalities, such as lingering shadows, triggered by object removal. We introduce the Physics-Aware Video Instance Removal (PVIR) benchmark, featuring 95 high-quality videos annotated with instance-accurate masks and removal prompts. PVIR is partitioned into Simple and Hard subsets, the latter explicitly targeting complex physical interactions. We evaluate four representative methods, PISCO-Removal, UniVideo, DiffuEraser, and CoCoCo, using a decoupled human evaluation protocol across three dimensions to isolate semantic, visual, and spatial failures: instruction following, rendering quality, and edit exclusivity. Our results show that PISCO-Removal and UniVideo achieve state-of-the-art performance, while DiffuEraser frequently introduces blurring artifacts and CoCoCo struggles significantly with instruction following. The persistent performance drop on the Hard subset highlights the ongoing challenge of recovering complex physical side effects.
- Abstract(参考訳): ビデオインスタンス削除(VIR)では、背景の整合性と物理的整合性を維持しながら対象オブジェクトを削除する必要がある。
テキストガイド編集の進歩にもかかわらず、現在のベンチマークは主に視覚的可視性を評価し、しばしばオブジェクトの除去によって引き起こされるリングリングシャドーのような物理的因果性を見落としている。
我々は,事例精度の高いマスクと削除プロンプトを付加した95の高品質な動画を特徴とするPVIR(Physical-Aware Video Instance removal)ベンチマークを紹介する。
PVIRは単純なサブセットとハードサブセットに分割され、後者は複雑な物理的相互作用を明示的にターゲットとしている。
PISCO-Removal、UniVideo、DiffuEraser、CoCoCoの4つの代表的な手法を3次元の分離された人間評価プロトコルを用いて評価し、意味的、視覚的、空間的障害を分離する。
PISCO-Removal と UniVideo は最先端のパフォーマンスを実現し,DiffuEraser はぼやけたアーティファクトを頻繁に導入し,CoCoCo は後続のインストラクションに苦慮している。
Hardサブセットの持続的なパフォーマンス低下は、複雑な物理的副作用を回復する上で進行中の課題を浮き彫りにする。
関連論文リスト
- From Understanding to Erasing: Towards Complete and Stable Video Object Removal [8.035439287403983]
ビデオオブジェクトの削除は、ビデオからターゲットオブジェクトを排除し、欠落した領域を確実に完了し、時間的一貫性を維持することを目的としている。
全体コヒーレンスを損なうことなく、物体によって引き起こされる副作用を取り除くことは依然として困難である。
本稿では,2つの相補的観点からの消去の理解を紹介する。
論文 参考訳(メタデータ) (2026-04-02T06:50:39Z) - EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing [50.43992550991499]
ビデオオブジェクトの除去は、動的対象オブジェクトとその変形、影、反射などの視覚的効果をなくし、シームレスな背景を復元することを目的としている。
近年の拡散型ビデオ塗装法や物体除去法は、物体を除去するが、これらの効果を消し去ってコヒーレントな背景を合成するのに苦労することが多い。
多様なペアビデオを提供する大規模データセットであるVOR(Video Object removal)を紹介する。
本稿では,ビデオオブジェクト挿入を相互学習方式における逆補助タスクとして扱う効果を考慮したビデオオブジェクト削除手法であるEffectEraseを提案する。
論文 参考訳(メタデータ) (2026-03-19T17:59:22Z) - Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding [45.593989778240655]
提案した表現はより少ないパラメータで高い映像再構成精度を実現する。
複雑なビデオ処理タスクをサポートし、ビデオのインペイントや時間的に一貫したビデオ編集を行う。
論文 参考訳(メタデータ) (2025-10-14T08:05:30Z) - MultiPhys: Multi-Person Physics-aware 3D Motion Estimation [28.91813849219037]
モノクロビデオから多人数動作を復元する手法であるMultiPhysを紹介する。
私たちの焦点は、様々なエンゲージメントの度合いで、ペアの個人間のコヒーレントな空間配置をキャプチャすることにあります。
本研究では,運動量に基づく運動を物理シミュレーターに自動回帰的に供給するパイプラインを考案する。
論文 参考訳(メタデータ) (2024-04-18T08:29:29Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Grounding Physical Concepts of Objects and Events Through Dynamic Visual
Reasoning [84.90458333884443]
本稿では、物理オブジェクトやイベントをビデオや言語から基盤とする統合フレームワークであるDynamic Concept Learner(DCL)を紹介する。
dclは、フレーム、グランドビジュアルプロパティ、物理イベントのオブジェクトを検出し、関連付けることができ、イベント間の因果関係を理解し、将来の予測と偽りの予測を行い、これらのプレゼンテーションをクエリに利用することができる。
DCLは、地上トラス属性や衝突ラベルをトレーニング用シミュレーションから使用することなく、困難な因果的ビデオ推論データセットであるCLEVRERで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-30T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。