論文の概要: Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2207.08485v2
- Date: Tue, 19 Jul 2022 09:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 11:09:02.291858
- Title: Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのための階層的特徴アライメントネットワーク
- Authors: Gensheng Pei, Fumin Shen, Yazhou Yao, Guo-Sen Xie, Zhenmin Tang,
Jinhui Tang
- Abstract要約: 外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
- 参考スコア(独自算出の注目度): 99.70336991366403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical flow is an easily conceived and precious cue for advancing
unsupervised video object segmentation (UVOS). Most of the previous methods
directly extract and fuse the motion and appearance features for segmenting
target objects in the UVOS setting. However, optical flow is intrinsically an
instantaneous velocity of all pixels among consecutive frames, thus making the
motion features not aligned well with the primary objects among the
corresponding frames. To solve the above challenge, we propose a concise,
practical, and efficient architecture for appearance and motion feature
alignment, dubbed hierarchical feature alignment network (HFAN). Specifically,
the key merits in HFAN are the sequential Feature AlignMent (FAM) module and
the Feature AdaptaTion (FAT) module, which are leveraged for processing the
appearance and motion features hierarchically. FAM is capable of aligning both
appearance and motion features with the primary object semantic
representations, respectively. Further, FAT is explicitly designed for the
adaptive fusion of appearance and motion features to achieve a desirable
trade-off between cross-modal features. Extensive experiments demonstrate the
effectiveness of the proposed HFAN, which reaches a new state-of-the-art
performance on DAVIS-16, achieving 88.7 $\mathcal{J}\&\mathcal{F}$ Mean, i.e.,
a relative improvement of 3.5% over the best published result.
- Abstract(参考訳): 光フローは、教師なしビデオオブジェクトセグメンテーション(UVOS)を進めるための、容易に考案され、貴重なキューである。
従来の手法のほとんどは、UVOS設定でターゲットオブジェクトをセグメント化するための動きと外観の機能を直接抽出して融合する。
しかし、光学フローは本質的に連続するフレーム間の全画素の瞬時速度であるため、運動特性は対応するフレーム内の一次オブジェクトとうまく一致しない。
上記の課題を解決するために,階層的特徴アライメントネットワーク(HFAN)と呼ばれる外観特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
具体的には、HFANの重要な利点は、連続的なFeature AlignMent (FAM) モジュールと、外観と動作の特徴を階層的に処理するために利用されるFeature AdaptaTion (FAT) モジュールである。
FAMは、外見と動きの特徴をそれぞれ主目的の意味表現と整合させることができる。
さらにfatは、外観と動きの特徴の適応的な融合のために明示的に設計され、クロスモーダル特徴間の望ましいトレードオフを達成する。
DAVIS-16で新たな最先端性能を達成し、88.7$\mathcal{J}\&\mathcal{F}$ Meanを達成した。
関連論文リスト
- SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:03:59Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。