論文の概要: TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking
- arxiv url: http://arxiv.org/abs/2312.08514v2
- Date: Tue, 9 Apr 2024 18:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 19:06:08.336077
- Title: TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking
- Title(参考訳): TAM-VT: セグメンテーションとトラッキングのための変換対応マルチスケールビデオトランス
- Authors: Raghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal,
- Abstract要約: ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
- 参考スコア(独自算出の注目度): 33.75267864844047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) has emerged as an increasingly important problem with availability of larger datasets and more complex and realistic settings, which involve long videos with global motion (e.g, in egocentric settings), depicting small objects undergoing both rigid and non-rigid (including state) deformations. While a number of recent approaches have been explored for this task, these data characteristics still present challenges. In this work we propose a novel, clip-based DETR-style encoder-decoder architecture, which focuses on systematically analyzing and addressing aforementioned challenges. Specifically, we propose a novel transformation-aware loss that focuses learning on portions of the video where an object undergoes significant deformations -- a form of "soft" hard examples mining. Further, we propose a multiplicative time-coded memory, beyond vanilla additive positional encoding, which helps propagate context across long videos. Finally, we incorporate these in our proposed holistic multi-scale video transformer for tracking via multi-scale memory matching and decoding to ensure sensitivity and accuracy for long videos and small objects. Our model enables on-line inference with long videos in a windowed fashion, by breaking the video into clips and propagating context among them. We illustrate that short clip length and longer memory with learned time-coding are important design choices for improved performance. Collectively, these technical contributions enable our model to achieve new state-of-the-art (SoTA) performance on two complex egocentric datasets -- VISOR and VOST, while achieving comparable to SoTA results on the conventional VOS benchmark, DAVIS'17. A series of detailed ablations validate our design choices as well as provide insights into the importance of parameter choices and their impact on performance.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、より大きなデータセットとより複雑で現実的な設定(例えば、エゴセントリックな設定で)を伴い、より厳密で非厳密な(状態を含む)変形を行う小さなオブジェクトを描写する、ますます重要な問題として浮上している。
この課題に対して、近年多くのアプローチが検討されているが、これらのデータ特性は依然として課題を呈している。
本研究では、上記の課題を体系的に分析し、対処することに焦点を当てた、クリップベースのDETR方式のエンコーダ・デコーダアーキテクチャを提案する。
具体的には、オブジェクトが大きな変形を行うビデオの一部(ソフトなハードサンプルマイニングの形式で)を学習することに焦点を当てた、トランスフォーメーション対応の新たな損失を提案する。
さらに,バニラ付加的な位置エンコーディングを超越した多重化時間符号化メモリを提案する。
最後に,これをマルチスケールメモリマッチングと復号化によるトラッキングのための総合的マルチスケールビデオトランスに組み込んで,長大なビデオや小さなオブジェクトに対する感度と精度を確保する。
本モデルでは,映像をクリップに分割し,コンテキストを伝播することにより,長いビデオのオンライン推論を可能にする。
短いクリップ長と学習時間符号化によるメモリ長は、性能向上のために重要な設計選択であることを示す。
これらの技術的貢献により、従来のVOSベンチマークであるDAVIS'17でSoTAに匹敵する結果を達成しつつ、2つの複雑なエゴセントリックデータセット(VISORとVOST)でSoTA(State-of-the-art)のパフォーマンスを達成することができる。
パラメータの選択の重要性と、そのパフォーマンスへの影響に関する洞察を提供すると同時に、設計上の選択を検証した一連の詳細な説明があります。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。