Fugu-MT 論文翻訳(概要): BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation

論文の概要: BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation

arxiv url: http://arxiv.org/abs/2208.01159v1
Date: Mon, 1 Aug 2022 22:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-03 13:15:23.483386
Title: BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation
Title（参考訳）: BATMAN:ビデオオブジェクトセグメンテーションのためのモーションディスプレイ近傍空間におけるバイラテラルアテンショントランス
Authors: Ye Yu, Jialin Yuan, Gaurav Mittal, Li Fuxin, and Mei Chen
Abstract要約: 半教師付きビデオシステムのためのバイラテラルアテンション変換器(BATMAN)を提案する。 BATMANは、光学フロー推定でセグメンテーションマスクを融合させる新しい光学フローキャリブレーションモジュールを通じて、ビデオ内の物体の動きをキャプチャする。動きと外観の両方を考慮して、隣り合う両側空間におけるクエリと参照フレームの対応を計算する。
参考スコア（独自算出の注目度）: 10.892508722853558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Object Segmentation (VOS) is fundamental to video understanding. Transformer-based methods show significant performance improvement on semi-supervised VOS. However, existing work faces challenges segmenting visually similar objects in close proximity of each other. In this paper, we propose a novel Bilateral Attention Transformer in Motion-Appearance Neighboring space (BATMAN) for semi-supervised VOS. It captures object motion in the video via a novel optical flow calibration module that fuses the segmentation mask with optical flow estimation to improve within-object optical flow smoothness and reduce noise at object boundaries. This calibrated optical flow is then employed in our novel bilateral attention, which computes the correspondence between the query and reference frames in the neighboring bilateral space considering both motion and appearance. Extensive experiments validate the effectiveness of BATMAN architecture by outperforming all existing state-of-the-art on all four popular VOS benchmarks: Youtube-VOS 2019 (85.0%), Youtube-VOS 2018 (85.3%), DAVIS 2017Val/Testdev (86.2%/82.2%), and DAVIS 2016 (92.5%).
Abstract（参考訳）: ビデオオブジェクトセグメンテーション(VOS)はビデオ理解の基本である。半教師付きvosにおけるトランスフォーマティブ方式の性能改善効果を示す。しかし、既存の作業は、視覚的に類似したオブジェクトを互いに近接して分割する課題に直面している。本稿では,半教師付きVOSのためのバイラテラルアテンション変換器(BATMAN)を提案する。このモジュールは、セグメンテーションマスクを光学フロー推定で融合させ、物体内部の光学フローの滑らかさを改善し、物体の境界におけるノイズを低減する。このキャリブレーション・オプティカル・フローは,新しいバイラテラル・アテンションに応用され,動きと外観の両方を考慮した隣り合うバイラテラル空間におけるクエリと参照フレームの対応を計算する。 Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2%/82.2%)、DAVIS 2016 (92.5%)である。

関連論文リスト

M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
論文参考訳（メタデータ） (2025-06-05T16:18:32Z)
Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net) 動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。 SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-04-08T11:02:14Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文参考訳（メタデータ） (2024-05-11T15:09:22Z)
Tsanet: Temporal and Scale Alignment for Unsupervised Video Object Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。 DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文参考訳（メタデータ） (2023-03-08T04:59:43Z)
Improving Unsupervised Video Object Segmentation with Motion-Appearance Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。 IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文参考訳（メタデータ） (2022-12-17T06:47:30Z)
Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文参考訳（メタデータ） (2022-07-18T10:10:14Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)
TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文参考訳（メタデータ） (2021-06-01T15:56:10Z)
Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文参考訳（メタデータ） (2021-03-23T03:06:26Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。