論文の概要: SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2
- arxiv url: http://arxiv.org/abs/2507.08548v1
- Date: Fri, 11 Jul 2025 12:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.361109
- Title: SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2
- Title(参考訳): SAM2RL:Segment Anything Model 2における強化学習メモリ制御を目指して
- Authors: Alen Adamyan, Tomáš Čížek, Matej Straka, Klara Janouskova, Martin Schmid,
- Abstract要約: Segment Anything Model 2 (SAM2) は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示している。
最近の方法では、イントラクタやオブジェクトの動きをよりよく扱うために手作りの更新ルールでSAM 2を拡張している。
SAM 2におけるメモリ更新を最適化するための強化学習を用いた基本的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.659882635924329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks and has become the state-of-the-art for visual object tracking. The model stores information from previous frames in a memory bank, enabling temporal consistency across video sequences. Recent methods augment SAM 2 with hand-crafted update rules to better handle distractors, occlusions, and object motion. We propose a fundamentally different approach using reinforcement learning for optimizing memory updates in SAM 2 by framing memory control as a sequential decision-making problem. In an overfitting setup with a separate agent per video, our method achieves a relative improvement over SAM 2 that exceeds by more than three times the gains of existing heuristics. These results reveal the untapped potential of the memory bank and highlight reinforcement learning as a powerful alternative to hand-crafted update rules for memory control in visual object tracking.
- Abstract(参考訳): Segment Anything Model 2 (SAM2)は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示し、ビジュアルオブジェクト追跡の最先端技術となっている。
モデルは、以前のフレームからの情報をメモリバンクに格納し、ビデオシーケンス間の時間的一貫性を可能にする。
最近の方法では、イントラクタ、オクルージョン、オブジェクトの動きをよりうまく扱えるように手作りの更新ルールでSAM 2を拡張している。
本稿では, メモリ制御を逐次決定問題とすることで, SAM 2のメモリ更新を最適化するための強化学習を用いた基本的なアプローチを提案する。
ビデオ毎のエージェントを分離したオーバーフィッティング設定では,既存のヒューリスティックスの3倍以上のSAM 2に対する相対的な改善を実現している。
これらの結果から,ビジュアルオブジェクトトラッキングにおけるメモリ制御のための手作り更新ルールの強力な代替手段として,記憶バンクの未使用の可能性を明らかにし,強化学習を強調した。
関連論文リスト
- MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection [21.22536962888316]
モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
MoSAMは、他の競合と比べて最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-04-30T02:19:31Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - A Distractor-Aware Memory for Visual Object Tracking with SAM2 [11.864619292028278]
メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-11-26T16:41:09Z) - SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory [23.547018300192065]
本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。
提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。
評価では、既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_ext$で7.1%、GOT-10kで3.5%向上した。
論文 参考訳(メタデータ) (2024-11-18T05:59:03Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。