論文の概要: BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring
Space for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2208.01159v1
- Date: Mon, 1 Aug 2022 22:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:15:23.483386
- Title: BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring
Space for Video Object Segmentation
- Title(参考訳): BATMAN:ビデオオブジェクトセグメンテーションのためのモーションディスプレイ近傍空間におけるバイラテラルアテンショントランス
- Authors: Ye Yu, Jialin Yuan, Gaurav Mittal, Li Fuxin, and Mei Chen
- Abstract要約: 半教師付きビデオシステムのためのバイラテラルアテンション変換器(BATMAN)を提案する。
BATMANは、光学フロー推定でセグメンテーションマスクを融合させる新しい光学フローキャリブレーションモジュールを通じて、ビデオ内の物体の動きをキャプチャする。
動きと外観の両方を考慮して、隣り合う両側空間におけるクエリと参照フレームの対応を計算する。
- 参考スコア(独自算出の注目度): 10.892508722853558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) is fundamental to video understanding.
Transformer-based methods show significant performance improvement on
semi-supervised VOS. However, existing work faces challenges segmenting
visually similar objects in close proximity of each other. In this paper, we
propose a novel Bilateral Attention Transformer in Motion-Appearance
Neighboring space (BATMAN) for semi-supervised VOS. It captures object motion
in the video via a novel optical flow calibration module that fuses the
segmentation mask with optical flow estimation to improve within-object optical
flow smoothness and reduce noise at object boundaries. This calibrated optical
flow is then employed in our novel bilateral attention, which computes the
correspondence between the query and reference frames in the neighboring
bilateral space considering both motion and appearance. Extensive experiments
validate the effectiveness of BATMAN architecture by outperforming all existing
state-of-the-art on all four popular VOS benchmarks: Youtube-VOS 2019 (85.0%),
Youtube-VOS 2018 (85.3%), DAVIS 2017Val/Testdev (86.2%/82.2%), and DAVIS 2016
(92.5%).
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)はビデオ理解の基本である。
半教師付きvosにおけるトランスフォーマティブ方式の性能改善効果を示す。
しかし、既存の作業は、視覚的に類似したオブジェクトを互いに近接して分割する課題に直面している。
本稿では,半教師付きVOSのためのバイラテラルアテンション変換器(BATMAN)を提案する。
このモジュールは、セグメンテーションマスクを光学フロー推定で融合させ、物体内部の光学フローの滑らかさを改善し、物体の境界におけるノイズを低減する。
このキャリブレーション・オプティカル・フローは,新しいバイラテラル・アテンションに応用され,動きと外観の両方を考慮した隣り合うバイラテラル空間におけるクエリと参照フレームの対応を計算する。
Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2%/82.2%)、DAVIS 2016 (92.5%)である。
関連論文リスト
- Event-Free Moving Object Segmentation from Moving Ego Vehicle [90.66285408745453]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において困難である。
ほとんどの最先端の手法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。