論文の概要: Self-supervised Video Object Segmentation with Distillation Learning of
Deformable Attention
- arxiv url: http://arxiv.org/abs/2401.13937v1
- Date: Thu, 25 Jan 2024 04:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:47:50.529525
- Title: Self-supervised Video Object Segmentation with Distillation Learning of
Deformable Attention
- Title(参考訳): 蒸留学習による変形注意の自己教師付き映像オブジェクトセグメンテーション
- Authors: Quang-Trung Truong, Duc Thanh Nguyen, Binh-Son Hua, Sai-Kit Yeung
- Abstract要約: ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
- 参考スコア(独自算出の注目度): 32.3582119920022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object segmentation is a fundamental research problem in computer
vision. Recent techniques have often applied attention mechanism to object
representation learning from video sequences. However, due to temporal changes
in the video data, attention maps may not well align with the objects of
interest across video frames, causing accumulated errors in long-term video
processing. In addition, existing techniques have utilised complex
architectures, requiring highly computational complexity and hence limiting the
ability to integrate video object segmentation into low-powered devices. To
address these issues, we propose a new method for self-supervised video object
segmentation based on distillation learning of deformable attention.
Specifically, we devise a lightweight architecture for video object
segmentation that is effectively adapted to temporal changes. This is enabled
by deformable attention mechanism, where the keys and values capturing the
memory of a video sequence in the attention module have flexible locations
updated across frames. The learnt object representations are thus adaptive to
both the spatial and temporal dimensions. We train the proposed architecture in
a self-supervised fashion through a new knowledge distillation paradigm where
deformable attention maps are integrated into the distillation loss. We
qualitatively and quantitatively evaluate our method and compare it with
existing methods on benchmark datasets including DAVIS 2016/2017 and
YouTube-VOS 2018/2019. Experimental results verify the superiority of our
method via its achieved state-of-the-art performance and optimal memory usage.
- Abstract(参考訳): ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
近年,映像列からの物体表現学習に注意機構が応用されている。
しかし、映像データの時間的変化により、注意マップは映像フレーム全体の関心対象とよく一致せず、長期の映像処理において累積誤差が生じる可能性がある。
さらに、既存の技術は複雑なアーキテクチャを利用し、高い計算量を必要とするため、低出力デバイスにビデオオブジェクトのセグメンテーションを統合する能力が制限されている。
そこで本研究では, 脱形注意の蒸留学習に基づく自己教師付き映像オブジェクトセグメンテーション手法を提案する。
具体的には,時間変化に効果的に対応するビデオオブジェクトセグメンテーションのための軽量アーキテクチャを考案する。
これは変形可能なアテンション機構によって実現され、アテンションモジュール内のビデオシーケンスのメモリをキャプチャするキーと値がフレーム間で柔軟に更新される。
したがって、学習対象表現は空間次元と時間次元の両方に適応する。
提案手法は, 変形性アテンションマップを蒸留損失に統合した新しい知識蒸留パラダイムを用いて, 自己指導型アーキテクチャを訓練する。
DAVIS 2016/2017 や YouTube-VOS 2018/2019 などのベンチマークデータセット上で,本手法を質的に定量的に評価し,既存の手法と比較した。
実験により,本手法が達成した最先端性能と最適メモリ使用量による優位性を検証した。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking [36.87237664751979]
本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。