論文の概要: Memory Aggregation Networks for Efficient Interactive Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2003.13246v1
- Date: Mon, 30 Mar 2020 07:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:56:11.729426
- Title: Memory Aggregation Networks for Efficient Interactive Video Object
Segmentation
- Title(参考訳): 対話型映像オブジェクトセグメンテーションのためのメモリアグリゲーションネットワーク
- Authors: Jiaxu Miao, Yunchao Wei and Yi Yang
- Abstract要約: インタラクティブなビデオオブジェクトセグメンテーション(iVOS)は、ユーザインタラクションを備えたビデオにおいて、ターゲットオブジェクトの高品質なセグメンテーションマスクを効率よく回収することを目的としている。
これまでの最先端技術では、ユーザインタラクションと時間的伝搬を行う2つの独立したネットワークでiVOSに取り組みました。
メモリ集約ネットワーク(MA-Net)と呼ばれる統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 75.35173388837852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive video object segmentation (iVOS) aims at efficiently harvesting
high-quality segmentation masks of the target object in a video with user
interactions. Most previous state-of-the-arts tackle the iVOS with two
independent networks for conducting user interaction and temporal propagation,
respectively, leading to inefficiencies during the inference stage. In this
work, we propose a unified framework, named Memory Aggregation Networks
(MA-Net), to address the challenging iVOS in a more efficient way. Our MA-Net
integrates the interaction and the propagation operations into a single
network, which significantly promotes the efficiency of iVOS in the scheme of
multi-round interactions. More importantly, we propose a simple yet effective
memory aggregation mechanism to record the informative knowledge from the
previous interaction rounds, improving the robustness in discovering
challenging objects of interest greatly. We conduct extensive experiments on
the validation set of DAVIS Challenge 2018 benchmark. In particular, our MA-Net
achieves the J@60 score of 76.1% without any bells and whistles, outperforming
the state-of-the-arts with more than 2.7%.
- Abstract(参考訳): インタラクティブビデオオブジェクトセグメンテーション(ivos)は、ユーザのインタラクションを備えたビデオ内のターゲットオブジェクトの高品質セグメンテーションマスクを効率的に取得することを目的としている。
これまでのほとんどの最先端技術は、ユーザインタラクションと時間的伝搬を行う2つの独立したネットワークでiVOSに取り組み、推論段階では非効率になる。
本研究では,メモリ集約ネットワーク(MA-Net)という統合フレームワークを提案する。
我々のMA-Netは、相互作用と伝搬操作を単一のネットワークに統合し、マルチラウンド相互作用のスキームにおけるiVOSの効率を大幅に向上させる。
より重要なことは、前回のインタラクションラウンドから情報を得た知識を記録するための、シンプルで効果的なメモリ集約機構を提案することである。
DAVIS Challenge 2018ベンチマークの検証セットについて広範な実験を行う。
特に、我々のma-netは76.1%のj@60スコアを達成し、2.7%以上で最先端を上回っています。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。
複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。
以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T08:32:18Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation [7.544917072241684]
ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-18T14:31:15Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。