論文の概要: M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking
- arxiv url: http://arxiv.org/abs/2312.08514v1
- Date: Wed, 13 Dec 2023 21:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:42:33.224029
- Title: M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking
- Title(参考訳): M3T: ビデオオブジェクトのセグメンテーションとトラッキングのためのマルチスケールメモリマッチング
- Authors: Raghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal
- Abstract要約: 本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
- 参考スコア(独自算出の注目度): 36.87237664751979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) has became increasingly important with
availability of larger datasets and more complex and realistic settings, which
involve long videos with global motion (e.g, in egocentric settings), depicting
small objects undergoing both rigid and non-rigid (including state)
deformations. While a number of recent approaches have been explored for this
task, these data characteristics still present challenges. In this work we
propose a novel, DETR-style encoder-decoder architecture, which focuses on
systematically analyzing and addressing aforementioned challenges.
Specifically, our model enables on-line inference with long videos in a
windowed fashion, by breaking the video into clips and propagating context
among them using time-coded memory. We illustrate that short clip length and
longer memory with learned time-coding are important design choices for
achieving state-of-the-art (SoTA) performance. Further, we propose multi-scale
matching and decoding to ensure sensitivity and accuracy for small objects.
Finally, we propose a novel training strategy that focuses learning on portions
of the video where an object undergoes significant deformations -- a form of
"soft" hard-negative mining, implemented as loss-reweighting. Collectively,
these technical contributions allow our model to achieve SoTA performance on
two complex datasets -- VISOR and VOST. A series of detailed ablations validate
our design choices as well as provide insights into the importance of parameter
choices and their impact on performance.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(vos: video object segmentation)は、より大きなデータセットとより複雑で現実的な設定が利用可能になったことで、ますます重要になっている。
このタスクに対する最近の多くのアプローチが検討されているが、これらのデータ特性は依然として課題となっている。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には,動画をクリップに分割し,時間符号化メモリを用いてコンテキストを伝播させることにより,長い映像をウィンドウ方式でオンライン推論することができる。
短いクリップ長と学習時間符号化によるメモリ長が,最先端(sota)性能を達成する上で重要な設計選択であることを示す。
さらに,小物体の感度と精度を確保するため,マルチスケールマッチングとデコードを提案する。
最後に,被写体が大きな変形を受ける映像の一部に焦点をあてる,新たなトレーニング戦略を提案する。
これらの技術的貢献により、我々のモデルは2つの複雑なデータセット、VISORとVOSTでSoTAのパフォーマンスを達成することができる。
一連の詳細なアブレーションは、我々の設計選択を検証し、パラメータ選択の重要性とそのパフォーマンスへの影響についての洞察を提供します。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。