Fugu-MT 論文翻訳(概要): DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation

論文の概要: DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation

arxiv url: http://arxiv.org/abs/2405.08715v1
Date: Sat, 11 May 2024 14:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 13:28:19.870725
Title: DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation
Title（参考訳）: DeVOS:ビデオオブジェクトセグメンテーションのためのフローガイド型変形可能なトランス
Authors: Volodymyr Fedynyak, Yaroslav Romanus, Bohdan Hlovatskyi, Bohdan Sydor, Oles Dobosevych, Igor Babin, Roman Riazantsev,
Abstract要約: DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。 DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
参考スコア（独自算出の注目度）: 0.4487265603408873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent works on Video Object Segmentation achieved remarkable results by matching dense semantic and instance-level features between the current and previous frames for long-time propagation. Nevertheless, global feature matching ignores scene motion context, failing to satisfy temporal consistency. Even though some methods introduce local matching branch to achieve smooth propagation, they fail to model complex appearance changes due to the constraints of the local window. In this paper, we present DeVOS (Deformable VOS), an architecture for Video Object Segmentation that combines memory-based matching with motion-guided propagation resulting in stable long-term modeling and strong temporal consistency. For short-term local propagation, we propose a novel attention mechanism ADVA (Adaptive Deformable Video Attention), allowing the adaption of similarity search region to query-specific semantic features, which ensures robust tracking of complex shape and scale changes. DeVOS employs an optical flow to obtain scene motion features which are further injected to deformable attention as strong priors to learnable offsets. Our method achieves top-rank performance on DAVIS 2017 val and test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) while featuring consistent run-time speed and stable memory consumption
Abstract（参考訳）: ビデオオブジェクトセグメンテーションに関する最近の研究は、時間的伝搬のために、現在のフレームと以前のフレームの間に密接なセマンティクスとインスタンスレベルの特徴を一致させることによって、驚くべき結果を得た。それでもグローバルな特徴マッチングはシーンの動作コンテキストを無視し、時間的一貫性を満たさない。一部の手法では、滑らかな伝搬を実現するために局所マッチング分岐を導入するが、局所ウィンドウの制約により複雑な外観変化をモデル化することができない。本稿では,映像オブジェクトセグメンテーションのアーキテクチャであるDeVOS(Deformable VOS)について述べる。短時間の局所的伝播のために,類似検索領域をクエリ固有のセマンティックな特徴に適応させることにより,複雑な形状やスケール変化のロバストな追跡を可能にするADVA(Adaptive Deformable Video Attention)を提案する。 DeVOSは、学習可能なオフセットに対する強い先行として、さらに変形可能な注意に注入されるシーンモーション特徴を得るために、光学フローを使用する。 DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) において,一貫した実行速度と安定したメモリ消費を実現した。

関連論文リスト

Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文参考訳（メタデータ） (2025-03-26T01:47:42Z)
Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文参考訳（メタデータ） (2024-05-11T15:09:22Z)
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-03-28T13:32:49Z)
Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文参考訳（メタデータ） (2023-08-25T17:30:08Z)
Look Before You Match: Instance Understanding Matters in Video Object Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文参考訳（メタデータ） (2022-12-13T18:59:59Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文参考訳（メタデータ） (2021-03-30T02:01:03Z)
SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文参考訳（メタデータ） (2021-01-21T20:06:12Z)
Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。時間的情報を用いて、最小限の変更で迅速にフレームを識別する。フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文参考訳（メタデータ） (2020-12-21T19:40:17Z)
Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-11T05:44:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。