論文の概要: Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2108.05076v1
- Date: Wed, 11 Aug 2021 07:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:30:32.761539
- Title: Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation
- Title(参考訳): ゼロショットビデオオブジェクトセグメンテーションのためのマルチソース融合と自動予測器選択
- Authors: Xiaoqi Zhao, Youwei Pang, Jiaxing Yang, Lihe Zhang, Huchuan Lu
- Abstract要約: ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。
提案手法は,最先端技術に対する魅力的な性能を実現する。
- 参考スコア(独自算出の注目度): 86.94578023985677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Location and appearance are the key cues for video object segmentation. Many
sources such as RGB, depth, optical flow and static saliency can provide useful
information about the objects. However, existing approaches only utilize the
RGB or RGB and optical flow. In this paper, we propose a novel multi-source
fusion network for zero-shot video object segmentation. With the help of
interoceptive spatial attention module (ISAM), spatial importance of each
source is highlighted. Furthermore, we design a feature purification module
(FPM) to filter the inter-source incompatible features. By the ISAM and FPM,
the multi-source features are effectively fused. In addition, we put forward an
automatic predictor selection network (APS) to select the better prediction of
either the static saliency predictor or the moving object predictor in order to
prevent over-reliance on the failed results caused by low-quality optical flow
maps. Extensive experiments on three challenging public benchmarks (i.e.
DAVIS$_{16}$, Youtube-Objects and FBMS) show that the proposed model achieves
compelling performance against the state-of-the-arts. The source code will be
publicly available at
\textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}.
- Abstract(参考訳): 位置と外観は、ビデオオブジェクトセグメンテーションの鍵となる手がかりである。
rgb、深さ、光流、静塩分といった多くのソースは、オブジェクトに関する有用な情報を提供することができる。
しかし、既存のアプローチではrgbまたはrgbとオプティカルフローのみを使用する。
本稿では,ゼロショット映像オブジェクトセグメンテーションのためのマルチソース融合ネットワークを提案する。
感性空間アテンションモジュール(ISAM)の助けを借りて、各ソースの空間的重要性が強調される。
さらに、ソース間互換性のない機能をフィルタリングする機能浄化モジュール(FPM)を設計する。
ISAMとFPMによって、マルチソース機能は効果的に融合される。
また,低品質光フローマップによる故障結果への過度な依存を防止するため,静的塩分予測器と移動物体予測器のどちらよりもよい予測を選択できる自動予測器選択ネットワーク(aps)を構築した。
3つの挑戦的な公開ベンチマーク(すなわち)に関する広範囲な実験
DAVIS$_{16}$, Youtube-Objects and FBMS) は,提案モデルが最先端技術に対して魅力的な性能を発揮することを示す。
ソースコードは、textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}で公開されている。
関連論文リスト
- HCF-Net: Hierarchical Context Fusion Network for Infrared Small Object Detection [16.92362922379821]
赤外線小物体検出性能を向上させるための深層学習法を提案する。
本発明の方法は、PPAモジュール、DASIモジュール、MDCRモジュールを含む。
論文 参考訳(メタデータ) (2024-03-16T02:45:42Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。