論文の概要: Explore Synergistic Interaction Across Frames for Interactive Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2401.12480v2
- Date: Sun, 4 Feb 2024 18:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:53:33.047828
- Title: Explore Synergistic Interaction Across Frames for Interactive Video
Object Segmentation
- Title(参考訳): 対話型ビデオオブジェクトセグメンテーションのためのフレーム間の相乗的相互作用の探索
- Authors: Kexin Li, Tao Jiang, Zongxin Yang, Yi Yang, Yueting Zhuang, Jun Xiao
- Abstract要約: 複数のフレームを同時に受け入れることのできるフレームワークを提案し、フレーム間の相乗的相互作用(SIAF)を探索する。
我々のSwinB-SIAFはDAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを達成した
我々のR50-SIAFは、挑戦的なマルチオブジェクトシナリオの下で、最先端の競合製品よりも3倍高速です。
- 参考スコア(独自算出の注目度): 70.93295323156876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive Video Object Segmentation (iVOS) is a challenging task that
requires real-time human-computer interaction. To improve the user experience,
it is important to consider the user's input habits, segmentation quality,
running time and memory consumption.However, existing methods compromise user
experience with single input mode and slow running speed. Specifically, these
methods only allow the user to interact with one single frame, which limits the
expression of the user's intent.To overcome these limitations and better align
with people's usage habits, we propose a framework that can accept multiple
frames simultaneously and explore synergistic interaction across frames (SIAF).
Concretely, we designed the Across-Frame Interaction Module that enables users
to annotate different objects freely on multiple frames. The AFI module will
migrate scribble information among multiple interactive frames and generate
multi-frame masks. Additionally, we employ the id-queried mechanism to process
multiple objects in batches. Furthermore, for a more efficient propagation and
lightweight model, we design a truncated re-propagation strategy to replace the
previous multi-round fusion module, which employs an across-round memory that
stores important interaction information. Our SwinB-SIAF achieves new
state-of-the-art performance on DAVIS 2017 (89.6%, J&F@60). Moreover, our
R50-SIAF is more than 3 faster than the state-of-the-art competitor under
challenging multi-object scenarios.
- Abstract(参考訳): インタラクティブビデオオブジェクトセグメンテーション(iVOS)は、リアルタイムの人間とコンピュータのインタラクションを必要とする課題である。
ユーザエクスペリエンスを向上させるためには,ユーザの入力習慣,セグメンテーション品質,実行時間,メモリ消費などを検討することが重要である。
具体的には,複数のフレームを同時に受け入れ,フレーム間の相乗的インタラクション(siaf)を探索できるフレームワークを提案する。
具体的には,異なるオブジェクトを複数フレームで自由にアノテートできるAcross-Frame Interaction Moduleを設計した。
AFIモジュールは複数のインタラクティブフレーム間でスクリブル情報を移行し、マルチフレームマスクを生成する。
さらに,idクエリ機構を用いて複数のオブジェクトをバッチで処理する。
さらに,より効率的な伝播と軽量化のために,従来のマルチラウンド・フュージョン・モジュールの代替として,重要なインタラクション情報を格納する全ラウンドメモリを用いた再伝播戦略を考案した。
私たちのSwinB-SIAFは、DAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを実現しています。
さらに、当社のr50-siafは、マルチオブジェクトシナリオにおいて最先端の競合製品よりも3倍以上高速です。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - Revisiting Click-based Interactive Video Object Segmentation [24.114405100879278]
CiVOSは、ユーザインタラクションとマスク伝搬を反映したデカップリングモジュール上に構築されている。
このアプローチは、人気のある対話型DAVISデータセットで広く評価されている。
提示されたCivVOSパイプラインは、低いユーザワークロードを必要とするが、競合的な結果を達成する。
論文 参考訳(メタデータ) (2022-03-03T15:55:14Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Multi-Stage Fusion for One-Click Segmentation [20.00726292545008]
対話型セグメンテーションのための多段階ガイダンスフレームワークを提案する。
提案フレームワークは,早期融合フレームワークと比較してパラメータ数の増加は無視できない。
論文 参考訳(メタデータ) (2020-10-19T17:07:40Z) - Memory Aggregation Networks for Efficient Interactive Video Object
Segmentation [75.35173388837852]
インタラクティブなビデオオブジェクトセグメンテーション(iVOS)は、ユーザインタラクションを備えたビデオにおいて、ターゲットオブジェクトの高品質なセグメンテーションマスクを効率よく回収することを目的としている。
これまでの最先端技術では、ユーザインタラクションと時間的伝搬を行う2つの独立したネットワークでiVOSに取り組みました。
メモリ集約ネットワーク(MA-Net)と呼ばれる統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T07:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。