Fugu-MT 論文翻訳(概要): M3T: Multi-Scale Memory Matching for Video Object Segmentation and Tracking

論文の概要: M3T: Multi-Scale Memory Matching for Video Object Segmentation and Tracking

arxiv url: http://arxiv.org/abs/2312.08514v1
Date: Wed, 13 Dec 2023 21:02:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 00:42:33.224029
Title: M3T: Multi-Scale Memory Matching for Video Object Segmentation and Tracking
Title（参考訳）: M3T: ビデオオブジェクトのセグメンテーションとトラッキングのためのマルチスケールメモリマッチング
Authors: Raghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal
Abstract要約: 本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
参考スコア（独自算出の注目度）: 36.87237664751979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Object Segmentation (VOS) has became increasingly important with availability of larger datasets and more complex and realistic settings, which involve long videos with global motion (e.g, in egocentric settings), depicting small objects undergoing both rigid and non-rigid (including state) deformations. While a number of recent approaches have been explored for this task, these data characteristics still present challenges. In this work we propose a novel, DETR-style encoder-decoder architecture, which focuses on systematically analyzing and addressing aforementioned challenges. Specifically, our model enables on-line inference with long videos in a windowed fashion, by breaking the video into clips and propagating context among them using time-coded memory. We illustrate that short clip length and longer memory with learned time-coding are important design choices for achieving state-of-the-art (SoTA) performance. Further, we propose multi-scale matching and decoding to ensure sensitivity and accuracy for small objects. Finally, we propose a novel training strategy that focuses learning on portions of the video where an object undergoes significant deformations -- a form of "soft" hard-negative mining, implemented as loss-reweighting. Collectively, these technical contributions allow our model to achieve SoTA performance on two complex datasets -- VISOR and VOST. A series of detailed ablations validate our design choices as well as provide insights into the importance of parameter choices and their impact on performance.
Abstract（参考訳）: ビデオオブジェクトセグメンテーション(vos: video object segmentation)は、より大きなデータセットとより複雑で現実的な設定が利用可能になったことで、ますます重要になっている。このタスクに対する最近の多くのアプローチが検討されているが、これらのデータ特性は依然として課題となっている。本稿では,上記の課題を体系的に分析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。具体的には,動画をクリップに分割し,時間符号化メモリを用いてコンテキストを伝播させることにより,長い映像をウィンドウ方式でオンライン推論することができる。短いクリップ長と学習時間符号化によるメモリ長が,最先端(sota)性能を達成する上で重要な設計選択であることを示す。さらに,小物体の感度と精度を確保するため,マルチスケールマッチングとデコードを提案する。最後に,被写体が大きな変形を受ける映像の一部に焦点をあてる,新たなトレーニング戦略を提案する。これらの技術的貢献により、我々のモデルは2つの複雑なデータセット、VISORとVOSTでSoTAのパフォーマンスを達成することができる。一連の詳細なアブレーションは、我々の設計選択を検証し、パラメータ選択の重要性とそのパフォーマンスへの影響についての洞察を提供します。

関連論文リスト

HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文参考訳（メタデータ） (2025-07-25T03:28:05Z)
LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T11:08:14Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。 ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文参考訳（メタデータ） (2024-07-18T17:59:17Z)
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文参考訳（メタデータ） (2024-03-03T07:43:39Z)
Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文参考訳（メタデータ） (2024-01-25T04:39:48Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:39Z)
Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。 MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。 5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文参考訳（メタデータ） (2022-01-12T03:33:57Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)
Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文参考訳（メタデータ） (2020-10-25T10:48:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。