論文の概要: M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking
- arxiv url: http://arxiv.org/abs/2312.08514v1
- Date: Wed, 13 Dec 2023 21:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:42:33.224029
- Title: M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking
- Title(参考訳): M3T: ビデオオブジェクトのセグメンテーションとトラッキングのためのマルチスケールメモリマッチング
- Authors: Raghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal
- Abstract要約: 本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
- 参考スコア(独自算出の注目度): 36.87237664751979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) has became increasingly important with
availability of larger datasets and more complex and realistic settings, which
involve long videos with global motion (e.g, in egocentric settings), depicting
small objects undergoing both rigid and non-rigid (including state)
deformations. While a number of recent approaches have been explored for this
task, these data characteristics still present challenges. In this work we
propose a novel, DETR-style encoder-decoder architecture, which focuses on
systematically analyzing and addressing aforementioned challenges.
Specifically, our model enables on-line inference with long videos in a
windowed fashion, by breaking the video into clips and propagating context
among them using time-coded memory. We illustrate that short clip length and
longer memory with learned time-coding are important design choices for
achieving state-of-the-art (SoTA) performance. Further, we propose multi-scale
matching and decoding to ensure sensitivity and accuracy for small objects.
Finally, we propose a novel training strategy that focuses learning on portions
of the video where an object undergoes significant deformations -- a form of
"soft" hard-negative mining, implemented as loss-reweighting. Collectively,
these technical contributions allow our model to achieve SoTA performance on
two complex datasets -- VISOR and VOST. A series of detailed ablations validate
our design choices as well as provide insights into the importance of parameter
choices and their impact on performance.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(vos: video object segmentation)は、より大きなデータセットとより複雑で現実的な設定が利用可能になったことで、ますます重要になっている。
このタスクに対する最近の多くのアプローチが検討されているが、これらのデータ特性は依然として課題となっている。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には,動画をクリップに分割し,時間符号化メモリを用いてコンテキストを伝播させることにより,長い映像をウィンドウ方式でオンライン推論することができる。
短いクリップ長と学習時間符号化によるメモリ長が,最先端(sota)性能を達成する上で重要な設計選択であることを示す。
さらに,小物体の感度と精度を確保するため,マルチスケールマッチングとデコードを提案する。
最後に,被写体が大きな変形を受ける映像の一部に焦点をあてる,新たなトレーニング戦略を提案する。
これらの技術的貢献により、我々のモデルは2つの複雑なデータセット、VISORとVOSTでSoTAのパフォーマンスを達成することができる。
一連の詳細なアブレーションは、我々の設計選択を検証し、パラメータ選択の重要性とそのパフォーマンスへの影響についての洞察を提供します。
関連論文リスト
- MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [22.566689536807043]
MovieLLMは、長いビデオのための合成で高品質なデータを作成するために設計された新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,マルチモーダルモデルの性能が著しく向上することを確認した。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - Self-supervised Video Object Segmentation with Distillation Learning of
Deformable Attention [32.3582119920022]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。