Fugu-MT 論文翻訳(概要): RMem: Restricted Memory Banks Improve Video Object Segmentation

論文の概要: RMem: Restricted Memory Banks Improve Video Object Segmentation

arxiv url: http://arxiv.org/abs/2406.08476v1
Date: Wed, 12 Jun 2024 17:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 15:27:35.110493
Title: RMem: Restricted Memory Banks Improve Video Object Segmentation
Title（参考訳）: RMem:制限付きメモリバンクでビデオオブジェクトのセグメンテーションが改善
Authors: Junbao Zhou, Ziqi Pang, Yu-Xiong Wang,
Abstract要約: ビデオオブジェクトセグメンテーション(VOS)ベンチマークは、挑戦的なシナリオへと進化している。我々は、メモリバンクのサイズを制限するという、単純だが見過ごされた戦略を再考する。メモリバンクを限られた数の必須フレームに制限することにより、VOSの精度を大幅に向上させる。
参考スコア（独自算出の注目度）: 26.103189475763998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With recent video object segmentation (VOS) benchmarks evolving to challenging scenarios, we revisit a simple but overlooked strategy: restricting the size of memory banks. This diverges from the prevalent practice of expanding memory banks to accommodate extensive historical information. Our specially designed "memory deciphering" study offers a pivotal insight underpinning such a strategy: expanding memory banks, while seemingly beneficial, actually increases the difficulty for VOS modules to decode relevant features due to the confusion from redundant information. By restricting memory banks to a limited number of essential frames, we achieve a notable improvement in VOS accuracy. This process balances the importance and freshness of frames to maintain an informative memory bank within a bounded capacity. Additionally, restricted memory banks reduce the training-inference discrepancy in memory lengths compared with continuous expansion. This fosters new opportunities in temporal reasoning and enables us to introduce the previously overlooked "temporal positional embedding." Finally, our insights are embodied in "RMem" ("R" for restricted), a simple yet effective VOS modification that excels at challenging VOS scenarios and establishes new state of the art for object state changes (on the VOST dataset) and long videos (on the Long Videos dataset). Our code and demo are available at https://restricted-memory.github.io/.
Abstract（参考訳）: 最近のビデオオブジェクトセグメンテーション(VOS)ベンチマークは、挑戦的なシナリオへと進化している。これは、メモリバンクを拡大して広範な歴史的情報に対応するという一般的な慣行から分岐している。我々の特別に設計された「メモリ解読」研究は、このような戦略を支える重要な洞察を提供する: メモリバンクの拡大は、有益であるように見えるが、実際には、冗長な情報からの混乱により、VOSモジュールが関連する機能をデコードすることの難しさを増大させる。メモリバンクを限られた数の必須フレームに制限することにより、VOSの精度を大幅に向上させる。このプロセスは、バウンダリ容量内で情報記憶バンクを維持するために、フレームの重要性と鮮度をバランスさせる。さらに、制限されたメモリバンクは、連続的な拡張に比べて、メモリ長のトレーニング-推論の差を小さくする。これにより、時間的推論における新たな機会を育み、これまで見過ごされていた「時間的位置埋め込み」の導入を可能にします。最後に、私たちの洞察は"RMem"(制限付きのR)に具体化されています。これは、VOSシナリオの挑戦に優れ、(VOSTデータセット上の)オブジェクトの状態変化と(Long Videosデータセット上の)ロングビデオのための新しい最先端技術を確立する、シンプルで効果的なVOS修正です。私たちのコードとデモはhttps://restricted-Memory.github.io/で公開されています。

関連論文リスト

ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文参考訳（メタデータ） (2024-11-23T13:23:22Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文参考訳（メタデータ） (2023-06-12T15:13:39Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-07-16T12:18:04Z)
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。 XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2022-07-14T17:59:37Z)
Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文参考訳（メタデータ） (2022-05-08T02:24:43Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文参考訳（メタデータ） (2022-04-13T19:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。