論文の概要: Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2505.18111v1
- Date: Fri, 23 May 2025 17:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.243401
- Title: Adapting SAM 2 for Visual Object Tracking: 1st Place Solution for MMVPR Challenge Multi-Modal Tracking
- Title(参考訳): Visual Object Tracking におけるSAM 2 の適応:MMVPR Challenge Multi-Modal Tracking における第1位ソリューション
- Authors: Cheng-Yen Yang, Hsiang-Wei Huang, Pyong-Kun Kim, Chien-Kai Kuo, Jui-Wei Chang, Kwang-Ju Kim, Chung-I Huang, Jenq-Neng Hwang,
- Abstract要約: 本稿では,Segment Anything Model 2 (SAM2) を Visual Object Tracking (VOT) タスクに適用するための効果的なアプローチを提案する。
提案手法はSAM2の強力な事前学習機能を活用し,VOTアプリケーションの性能向上にいくつかの重要な手法を取り入れている。
- 参考スコア(独自算出の注目度): 18.75180282940254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an effective approach for adapting the Segment Anything Model 2 (SAM2) to the Visual Object Tracking (VOT) task. Our method leverages the powerful pre-trained capabilities of SAM2 and incorporates several key techniques to enhance its performance in VOT applications. By combining SAM2 with our proposed optimizations, we achieved a first place AUC score of 89.4 on the 2024 ICPR Multi-modal Object Tracking challenge, demonstrating the effectiveness of our approach. This paper details our methodology, the specific enhancements made to SAM2, and a comprehensive analysis of our results in the context of VOT solutions along with the multi-modality aspect of the dataset.
- Abstract(参考訳): 本稿では,Segment Anything Model 2 (SAM2) を Visual Object Tracking (VOT) タスクに適用するための効果的なアプローチを提案する。
提案手法はSAM2の強力な事前学習機能を活用し,VOTアプリケーションの性能向上にいくつかの重要な手法を取り入れている。
提案した最適化とSAM2を組み合わせることで,2024年のICPRマルチモーダル物体追跡チャレンジにおいて,AUCスコア89.4を達成し,提案手法の有効性を実証した。
本稿では,本手法,SAM2の具体的拡張,およびVOTソリューションのコンテキストにおける結果の包括的解析,およびデータセットのマルチモダリティ的側面について述べる。
関連論文リスト
- SAM2MOT: A Novel Paradigm of Multi-Object Tracking by Segmentation [11.1906749425206]
Segment Anything 2 (SAM2)は、セグメンテーションを使った堅牢な単一オブジェクト追跡を可能にする。
本稿では,多目的追跡のための新しいトラッキング・バイ・パラダイムであるSAM2MOTを提案する。
SAM2MOTはセグメンテーションマスクから直接トラッキングボックスを生成し、検出精度への依存を減らす。
論文 参考訳(メタデータ) (2025-04-06T15:32:08Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Action Recognition Using Temporal Shift Module and Ensemble Learning [0.0]
本稿では,aclICPR 2024におけるマルチモーダル視覚パターン認識ワークショップの一環として,マルチモーダル行動認識チャレンジ(Multi-Modal Action Recognition Challenge)のファーストランクソリューションを提案する。
このコンペティションは、マルチモーダルソースから収集された20のアクションクラスの多様なデータセットを使用して、人間の行動を認識することを目的としている。
提案手法は,20クラスにまたがる人的行動の認識において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-01-29T10:36:55Z) - Continual Learning for Segment Anything Model Adaptation [14.00191851894315]
本研究では,8つのタスク領域を持つ新しい連続SAM適応(CoSAM)ベンチマークを提案する。
そこで,本研究では,SAMエンコーダがタスク領域ごとによく区切られた特徴を抽出するのを支援するために,新しい単純なyet- Effective Mixture of Domain Adapters (MoDA)アルゴリズムを提案する。
我々のMoDAは自然画像領域において高い競争力を維持しており、オリジナルのSAMのゼロショット性能に近づいた。
論文 参考訳(メタデータ) (2024-12-09T11:51:28Z) - Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - On Efficient Variants of Segment Anything Model: A Survey [63.127753705046]
Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。
これを解決するために、精度を保ちながら効率を高めるために様々なSAM変種が提案されている。
この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-10-07T11:59:54Z) - Underwater Camouflaged Object Tracking Meets Vision-Language SAM2 [60.47622353256502]
本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。
提案したデータセットに基づいて、本研究はまず、水中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
論文 参考訳(メタデータ) (2024-09-25T13:10:03Z) - Segment and Track Anything [57.20918630166862]
本報告ではSegment And Track Anything(SAMTrack)というフレームワークについて述べる。
SAM-Trackを使えば、ビデオ内の任意のオブジェクトを正確かつ効果的にセグメンテーションし、追跡することができる。
ドローン技術、自動運転、医療画像、拡張現実、生物学的分析など、さまざまな分野に応用することができる。
論文 参考訳(メタデータ) (2023-05-11T04:33:08Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。