論文の概要: BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring
Space for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2208.01159v2
- Date: Wed, 3 Aug 2022 17:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 11:26:00.406656
- Title: BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring
Space for Video Object Segmentation
- Title(参考訳): BATMAN:ビデオオブジェクトセグメンテーションのためのモーションディスプレイ近傍空間におけるバイラテラルアテンショントランス
- Authors: Ye Yu, Jialin Yuan, Gaurav Mittal, Li Fuxin, and Mei Chen
- Abstract要約: 半教師付きビデオシステムのためのバイラテラルアテンション変換器(BATMAN)を提案する。
BATMANは、光学フロー推定でセグメンテーションマスクを融合させる新しい光学フローキャリブレーションモジュールを通じて、ビデオ内の物体の動きをキャプチャする。
動きと外観の両方を考慮して、隣り合う両側空間におけるクエリと参照フレームの対応を計算する。
- 参考スコア(独自算出の注目度): 10.892508722853558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) is fundamental to video understanding.
Transformer-based methods show significant performance improvement on
semi-supervised VOS. However, existing work faces challenges segmenting
visually similar objects in close proximity of each other. In this paper, we
propose a novel Bilateral Attention Transformer in Motion-Appearance
Neighboring space (BATMAN) for semi-supervised VOS. It captures object motion
in the video via a novel optical flow calibration module that fuses the
segmentation mask with optical flow estimation to improve within-object optical
flow smoothness and reduce noise at object boundaries. This calibrated optical
flow is then employed in our novel bilateral attention, which computes the
correspondence between the query and reference frames in the neighboring
bilateral space considering both motion and appearance. Extensive experiments
validate the effectiveness of BATMAN architecture by outperforming all existing
state-of-the-art on all four popular VOS benchmarks: Youtube-VOS 2019 (85.0%),
Youtube-VOS 2018 (85.3%), DAVIS 2017Val/Testdev (86.2%/82.2%), and DAVIS 2016
(92.5%).
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)はビデオ理解の基本である。
半教師付きvosにおけるトランスフォーマティブ方式の性能改善効果を示す。
しかし、既存の作業は、視覚的に類似したオブジェクトを互いに近接して分割する課題に直面している。
本稿では,半教師付きVOSのためのバイラテラルアテンション変換器(BATMAN)を提案する。
このモジュールは、セグメンテーションマスクを光学フロー推定で融合させ、物体内部の光学フローの滑らかさを改善し、物体の境界におけるノイズを低減する。
このキャリブレーション・オプティカル・フローは,新しいバイラテラル・アテンションに応用され,動きと外観の両方を考慮した隣り合うバイラテラル空間におけるクエリと参照フレームの対応を計算する。
Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2%/82.2%)、DAVIS 2016 (92.5%)である。
関連論文リスト
- Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。
すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文 参考訳(メタデータ) (2024-05-11T15:09:22Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。