論文の概要: MAMBA: Multi-level Aggregation via Memory Bank for Video Object
Detection
- arxiv url: http://arxiv.org/abs/2401.09923v2
- Date: Thu, 1 Feb 2024 18:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:27:25.887368
- Title: MAMBA: Multi-level Aggregation via Memory Bank for Video Object
Detection
- Title(参考訳): MAMBA:ビデオオブジェクト検出のためのメモリバンクによる多レベルアグリゲーション
- Authors: Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson
- Abstract要約: 我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。
具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。
従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 35.16197118579414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video object detection methods maintain a memory structure,
either a sliding window or a memory queue, to enhance the current frame using
attention mechanisms. However, we argue that these memory structures are not
efficient or sufficient because of two implied operations: (1) concatenating
all features in memory for enhancement, leading to a heavy computational cost;
(2) frame-wise memory updating, preventing the memory from capturing more
temporal information. In this paper, we propose a multi-level aggregation
architecture via memory bank called MAMBA. Specifically, our memory bank
employs two novel operations to eliminate the disadvantages of existing
methods: (1) light-weight key-set construction which can significantly reduce
the computational cost; (2) fine-grained feature-wise updating strategy which
enables our method to utilize knowledge from the whole video. To better enhance
features from complementary levels, i.e., feature maps and proposals, we
further propose a generalized enhancement operation (GEO) to aggregate
multi-level features in a unified manner. We conduct extensive evaluations on
the challenging ImageNetVID dataset. Compared with existing state-of-the-art
methods, our method achieves superior performance in terms of both speed and
accuracy. More remarkably, MAMBA achieves mAP of 83.7/84.6% at 12.6/9.1 FPS
with ResNet-101. Code is available at
https://github.com/guanxiongsun/vfe.pytorch.
- Abstract(参考訳): 最先端のビデオオブジェクト検出手法は、スライディングウィンドウまたはメモリキューのメモリ構造を保持し、注意機構を用いて現在のフレームを強化する。
しかし、これらのメモリ構造は、(1)メモリの全ての特徴を集約して拡張し、計算コストを増大させ、(2)フレームワイドメモリの更新を行い、メモリがより時間的情報を取得するのを防ぐという2つの命令によって効率的あるいは十分ではない。
本稿では,MAMBAと呼ばれるメモリバンクを用いたマルチレベルアグリゲーションアーキテクチャを提案する。
具体的には,(1)計算コストを大幅に削減できる軽量キーセットの構築,(2)映像全体から知識を活用可能な細粒度機能更新戦略という,既存の手法の欠点を解消するために,2つの新手法を採用している。
特徴マップや提案といった相補的なレベルから機能を強化するために,多段階特徴を統一的に集約する汎用拡張演算(GEO)を提案する。
課題であるImageNetVIDデータセットについて広範な評価を行う。
従来の最先端手法と比較して,本手法は速度と精度の両面で優れた性能を実現する。
さらに驚くべきことに、MAMBAはResNet-101で83.7/84.6%のmAPを12.6/9.1 FPSで達成している。
コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。
関連論文リスト
- Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Multi-Scale Memory-Based Video Deblurring [34.488707652997704]
メモリバンク内のぼやけたシャープ特徴ペアを記憶するためのメモリブランチを設計する。
メモリバンクのメモリを豊かにするために、双方向の頻繁度とマルチスケール戦略も設計した。
実験により,本モデルが他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-04-06T08:48:56Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。