論文の概要: Motion-Attentive Transition for Zero-Shot Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2003.04253v3
- Date: Thu, 9 Jul 2020 17:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:42:37.212706
- Title: Motion-Attentive Transition for Zero-Shot Video Object Segmentation
- Title(参考訳): ゼロショットビデオオブジェクトセグメンテーションのためのモーション・アテンティブ・トランジション
- Authors: Tianfei Zhou, Shunzhou Wang, Yi Zhou, Yazhou Yao, Jianwu Li, Ling Shao
- Abstract要約: ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
- 参考スコア(独自算出の注目度): 99.44383412488703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel Motion-Attentive Transition Network
(MATNet) for zero-shot video object segmentation, which provides a new way of
leveraging motion information to reinforce spatio-temporal object
representation. An asymmetric attention block, called Motion-Attentive
Transition (MAT), is designed within a two-stream encoder, which transforms
appearance features into motion-attentive representations at each convolutional
stage. In this way, the encoder becomes deeply interleaved, allowing for
closely hierarchical interactions between object motion and appearance. This is
superior to the typical two-stream architecture, which treats motion and
appearance separately in each stream and often suffers from overfitting to
appearance information. Additionally, a bridge network is proposed to obtain a
compact, discriminative and scale-sensitive representation for multi-level
encoder features, which is further fed into a decoder to achieve segmentation
results. Extensive experiments on three challenging public benchmarks (i.e.
DAVIS-16, FBMS and Youtube-Objects) show that our model achieves compelling
performance against the state-of-the-arts.
- Abstract(参考訳): 本稿では,ゼロショット映像オブジェクトセグメンテーションのための新しいモーション・アテンション・トランジション・ネットワーク(matnet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されており、各畳み込み段階での外観特徴をモーション・アテンティブな表現に変換する。
このように、エンコーダは深くインターリーブされ、オブジェクトの動きと外観の間の密接な階層的相互作用を可能にする。
これは、各ストリームの動作と外観を別々に扱う典型的な2ストリームアーキテクチャよりも優れており、しばしば過度な適合から外観情報に悩まされる。
さらに,マルチレベルエンコーダの特徴に対して,コンパクトで識別性,スケールセンシティブな表現を実現するためにブリッジネットワークを提案し,さらにデコーダに供給してセグメンテーション結果を得る。
DAVIS-16、FBMS、Youtube-Objectsの3つの挑戦的な公開ベンチマークに対する大規模な実験により、我々のモデルは最先端技術に対して魅力的なパフォーマンスを達成している。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - MODETR: Moving Object Detection with Transformers [2.4366811507669124]
移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
論文 参考訳(メタデータ) (2021-06-21T21:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。