論文の概要: PanoSAM2: Lightweight Distortion- and Memory-aware Adaptions of SAM2 for 360 Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2604.07901v1
- Date: Thu, 09 Apr 2026 07:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.761094
- Title: PanoSAM2: Lightweight Distortion- and Memory-aware Adaptions of SAM2 for 360 Video Object Segmentation
- Title(参考訳): PanoSAM2:360度ビデオオブジェクトセグメンテーションのためのSAM2の軽量歪みとメモリアウェア適応
- Authors: Dingwen Xiao, Weiming Zhang, Shiqi Wen, Lin Wang,
- Abstract要約: 360ビデオオブジェクトセグメンテーション(360VOS)は、360ビデオにおいて時間的に一貫性のあるマスクを予測することを目的としている。
SAM2の軽量歪みおよびメモリ認識適応戦略に基づく新しい360VOSフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.17341434852611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 360 video object segmentation (360VOS) aims to predict temporally-consistent masks in 360 videos, offering full-scene coverage, benefiting applications, such as VR/AR and embodied AI. Learning 360VOS model is nontrivial due to the lack of high-quality labeled dataset. Recently, Segment Anything Models (SAMs), especially SAM2 -- with its design of memory module -- shows strong, promptable VOS capability. However, directly using SAM2 for 360VOS yields implausible results as 360 videos suffer from the projection distortion, semantic inconsistency of left-right sides, and sparse object mask information in SAM2's memory. To this end, we propose PanoSAM2, a novel 360VOS framework based on our lightweight distortion- and memory-aware adaptation strategies of SAM2 to achieve reliable 360VOS while retaining SAM2's user-friendly prompting design. Concretely, to tackle the projection distortion and semantic inconsistency issues, we propose a Pano-Aware Decoder with seam-consistent receptive fields and iterative distortion refinement to maintain continuity across the 0/360 degree boundary. Meanwhile, a Distortion-Guided Mask Loss is introduced to weight pixels by distortion magnitude, stressing stretched regions and boundaries. To address the object sparsity issue, we propose a Long-Short Memory Module to maintain a compact long-term object pointer to re-instantiate and align short-term memories, thereby enhancing temporal coherence. Extensive experiments show that PanoSAM2 yields substantial gains over SAM2: +5.6 on 360VOTS and +6.7 on PanoVOS, showing the effectiveness of our method.
- Abstract(参考訳): 360ビデオオブジェクトセグメンテーション(360VOS)は、360ビデオ内の時間的に一貫性のあるマスクを予測することを目的としており、フルシーンのカバレッジを提供し、VR/ARや組み込みAIなどのアプリケーションに恩恵を与える。
360VOSモデルの学習は、高品質なラベル付きデータセットが欠如しているため、簡単ではない。
最近、Segment Anything Models (SAMs)、特にSAM2(メモリモジュールの設計)は、強力な、プロンプト可能なVOS機能を示している。
しかし、SAM2 を直接 360VOS に使用すると、360 ビデオが投影歪み、左右の側面の意味的矛盾、SAM2 のメモリ内のスパースマスク情報に悩まされるため、予測不可能な結果が得られる。
そこで本研究では,SAM2のユーザフレンドリなプロンプト設計を維持しつつ,信頼性の高い360VOSを実現するために,SAM2の軽量歪みおよびメモリ認識適応戦略に基づく新しい360VOSフレームワークであるPanoSAM2を提案する。
具体的には、投影歪みとセマンティック不整合問題に対処するために、シーム一貫性の受容場を持つパノ・アウェア・デコーダと、0/360度境界における連続性を維持するための反復歪み補正を提案する。
一方、歪誘導マスクロスは歪みの大きさによって重み画素に導入され、ストレッチ領域とバウンダリが強調される。
オブジェクトのスパーシリティ問題に対処するため,コンパクトな長期オブジェクトポインタを保守し,短期記憶を再確立・整合させ,時間的コヒーレンスを向上するLong-Short Memory Moduleを提案する。
パノSAM2は360VOTSではSAM2:+5.6、パノVOSでは+6.7でかなりの上昇を示し、本手法の有効性を示した。
関連論文リスト
- Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - SAMSON: 3rd Place Solution of LSVOS 2025 VOS Challenge [9.131199997701282]
大規模なビデオオブジェクトモジュール(LSVOS)は、長いビデオシーケンスにおけるオブジェクトの正確な追跡とセグメンテーションという課題に対処する。
テストセットリーダーボードにおけるJ&Fの最終的な性能は0.8427であった。
論文 参考訳(メタデータ) (2025-09-22T08:30:34Z) - SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2 [2.659882635924329]
Segment Anything Model 2 (SAM2) は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示している。
最近の方法では、イントラクタやオブジェクトの動きをよりよく扱うために手作りの更新ルールでSAM 2を拡張している。
SAM 2におけるメモリ更新を最適化するための強化学習を用いた基本的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-11T12:53:19Z) - CamSAM2: Segment Anything Accurately in Camouflaged Videos [37.0152845263844]
本研究では,Camouflaged SAM2 (CamSAM2) を提案する。
現在のフレームと以前のフレームの細粒度と高解像度機能をフル活用するために,暗黙的オブジェクト認識融合 (IOF) と明示的オブジェクト認識融合 (EOF) モジュールを提案する。
CamSAM2はSAM2に無視可能な学習可能なパラメータのみを追加するが、3つのVCOSデータセットでSAM2を大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-25T14:58:52Z) - OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation [38.730173012619304]
Segment Anything Model 2 (SAM2) は様々なピンホール画像分割タスクにおいて強力なベースモデルとして登場した。
ピンホール(70円×70円)とパノラマ画像(180円×360円)の間には、ユニークな課題がある。
本稿では,パノラマセマンティックセマンティックセグメンテーションにSAM2を適用しようとする新しいOmniSAMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T09:21:08Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。