Fugu-MT 論文翻訳(概要): Efficient Video Object Segmentation via Modulated Cross-Attention Memory

論文の概要: Efficient Video Object Segmentation via Modulated Cross-Attention Memory

arxiv url: http://arxiv.org/abs/2403.17937v3
Date: Thu, 26 Sep 2024 07:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:48:22.197551
Title: Efficient Video Object Segmentation via Modulated Cross-Attention Memory
Title（参考訳）: 変調型クロスアテンションメモリによる高能率映像オブジェクト分割
Authors: Abdelrahman Shaker, Syed Talal Wasim, Martin Danelljan, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan,
Abstract要約: 頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
参考スコア（独自算出の注目度）: 123.12273176475863
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, transformer-based approaches have shown promising results for semi-supervised video object segmentation. However, these approaches typically struggle on long videos due to increased GPU memory demands, as they frequently expand the memory bank every few frames. We propose a transformer-based approach, named MAVOS, that introduces an optimized and dynamic long-term modulated cross-attention (MCA) memory to model temporal smoothness without requiring frequent memory expansion. The proposed MCA effectively encodes both local and global features at various levels of granularity while efficiently maintaining consistent speed regardless of the video length. Extensive experiments on multiple benchmarks, LVOS, Long-Time Video, and DAVIS 2017, demonstrate the effectiveness of our proposed contributions leading to real-time inference and markedly reduced memory demands without any degradation in segmentation accuracy on long videos. Compared to the best existing transformer-based approach, our MAVOS increases the speed by 7.6x, while significantly reducing the GPU memory by 87% with comparable segmentation performance on short and long video datasets. Notably on the LVOS dataset, our MAVOS achieves a J&F score of 63.3% while operating at 37 frames per second (FPS) on a single V100 GPU. Our code and models will be publicly available at: https://github.com/Amshaker/MAVOS.
Abstract（参考訳）: 近年,半教師付きビデオオブジェクトセグメンテーションにおいて,トランスフォーマーに基づくアプローチが有望な結果を示している。しかし、これらのアプローチは一般的に、GPUメモリの要求が増加するため、数フレーム毎にメモリバンクを頻繁に拡張するため、長いビデオに苦しむ。我々は,時間的スムーズさを頻繁なメモリ拡張を必要とせず,時間的スムーズさをモデル化するために,MCAメモリを最適化し,動的に変更するMAVOSというトランスフォーマーベースの手法を提案する。提案したMCAは,映像長に関わらず,局所的特徴とグローバルな特徴を多種多様な粒度で効果的に符号化し,一貫した速度を効率的に維持する。複数のベンチマーク、LVOS、Long-Time Video、DAVIS 2017の大規模な実験では、提案したコントリビューションの有効性が実時間推論に結びつき、長いビデオのセグメンテーション精度を低下させることなく、メモリ要求が著しく削減された。既存のトランスフォーマーベースのアプローチと比較して、MAVOSはスピードを7.6倍にし、GPUメモリはショートビデオとロングビデオのデータセットで同等のセグメンテーション性能で87%削減しました。特にLVOSデータセットでは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコアが63.3%に達しています。私たちのコードとモデルは、https://github.com/Amshaker/MAVOS.comで公開されます。

関連論文リスト

Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文参考訳（メタデータ） (2025-06-30T13:17:49Z)
Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory [5.311777874655448]
Long-Video Memory Network、Long-VMNetは、新しいビデオ理解手法である。 Long-VMNetは、識別トークンを識別するニューラルサンプリングを利用することにより、効率の向上を実現している。本研究では,Rest-ADLデータセットを用いて,長文ビデオ検索と回答のための推論時間を18～75倍改善したことを示す。
論文参考訳（メタデータ） (2025-03-17T20:25:41Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文参考訳（メタデータ） (2024-09-02T08:52:58Z)
Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文参考訳（メタデータ） (2024-05-25T02:22:09Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文参考訳（メタデータ） (2022-07-21T01:44:40Z)
Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-07-16T12:18:04Z)
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。 XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2022-07-14T17:59:37Z)
MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。 MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文参考訳（メタデータ） (2022-01-20T18:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。