論文の概要: Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion
- arxiv url: http://arxiv.org/abs/2103.07941v2
- Date: Tue, 16 Mar 2021 03:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 11:16:49.478949
- Title: Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion
- Title(参考訳): Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and difference-Aware Fusion
- Authors: Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: 本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
- 参考スコア(独自算出の注目度): 68.45737688496654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Modular interactive VOS (MiVOS) framework which decouples
interaction-to-mask and mask propagation, allowing for higher generalizability
and better performance. Trained separately, the interaction module converts
user interactions to an object mask, which is then temporally propagated by our
propagation module using a novel top-$k$ filtering strategy in reading the
space-time memory. To effectively take the user's intent into account, a novel
difference-aware module is proposed to learn how to properly fuse the masks
before and after each interaction, which are aligned with the target frames by
employing the space-time memory. We evaluate our method both qualitatively and
quantitatively with different forms of user interactions (e.g., scribbles,
clicks) on DAVIS to show that our method outperforms current state-of-the-art
algorithms while requiring fewer frame interactions, with the additional
advantage in generalizing to different types of user interactions. We
contribute a large-scale synthetic VOS dataset with pixel-accurate segmentation
of 4.8M frames to accompany our source codes to facilitate future research.
- Abstract(参考訳): マスク間相互作用とマスク伝搬を分離し,より高い一般化性と性能を実現するモジュール型対話型VOS(MiVOS)フレームワークを提案する。
個別にトレーニングされたインタラクションモジュールは,ユーザインタラクションをオブジェクトマスクに変換して,時空間メモリを読み取るための新しいトップ-k$フィルタ戦略を用いて,伝搬モジュールによって時間的に伝搬する。
ユーザの意図を効果的に考慮した新たな差分認識モジュールを提案し、時空メモリを用いて、対象フレームにアライメントされた各インタラクションの前後に適切にマスクを融合する方法を学習する。
我々は,DAVISにおけるユーザインタラクションの異なる形態(例えば,スクリブル,クリック)で定性的かつ定量的に評価し,フレームインタラクションを少なくしながら,現在の最先端アルゴリズムよりも優れていることを示す。
我々は,4.8Mフレームの画素精度を向上した大規模な合成VOSデータセットを,ソースコードに付随して提供し,今後の研究を促進する。
関連論文リスト
- Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Explore Synergistic Interaction Across Frames for Interactive Video
Object Segmentation [70.93295323156876]
複数のフレームを同時に受け入れることのできるフレームワークを提案し、フレーム間の相乗的相互作用(SIAF)を探索する。
我々のSwinB-SIAFはDAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを達成した
我々のR50-SIAFは、挑戦的なマルチオブジェクトシナリオの下で、最先端の競合製品よりも3倍高速です。
論文 参考訳(メタデータ) (2024-01-23T04:19:15Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Revisiting Click-based Interactive Video Object Segmentation [24.114405100879278]
CiVOSは、ユーザインタラクションとマスク伝搬を反映したデカップリングモジュール上に構築されている。
このアプローチは、人気のある対話型DAVISデータセットで広く評価されている。
提示されたCivVOSパイプラインは、低いユーザワークロードを必要とするが、競合的な結果を達成する。
論文 参考訳(メタデータ) (2022-03-03T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。