Fugu-MT 論文翻訳(概要): OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation

論文の概要: OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation

arxiv url: http://arxiv.org/abs/2503.07098v1
Date: Mon, 10 Mar 2025 09:21:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.815975
Title: OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation
Title（参考訳）: OmniSAM:パノラマセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティック・モデル
Authors: Ding Zhong, Xu Zheng, Chenfei Liao, Yuanhuiyi Lyu, Jialei Chen, Shengyang Wu, Linfeng Zhang, Xuming Hu,
Abstract要約: Segment Anything Model 2 (SAM2) は様々なピンホール画像分割タスクにおいて強力なベースモデルとして登場した。ピンホール(70円×70円)とパノラマ画像(180円×360円)の間には、ユニークな課題がある。本稿では,パノラマセマンティックセマンティックセグメンテーションにSAM2を適用しようとする新しいOmniSAMフレームワークを提案する。
参考スコア（独自算出の注目度）: 20.264830072392595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segment Anything Model 2 (SAM2) has emerged as a strong base model in various pinhole imaging segmentation tasks. However, when applying it to $360^\circ$ domain, the significant field-of-view (FoV) gap between pinhole ($70^\circ \times 70^\circ$) and panoramic images ($180^\circ \times 360^\circ$) poses unique challenges. Two major concerns for this application includes 1) inevitable distortion and object deformation brought by the large FoV disparity between domains; 2) the lack of pixel-level semantic understanding that the original SAM2 cannot provide. To address these issues, we propose a novel OmniSAM framework, which makes the first attempt to apply SAM2 for panoramic semantic segmentation. Specifically, to bridge the first gap, OmniSAM first divides the panorama into sequences of patches. These patches are then treated as image sequences in similar manners as in video segmentation tasks. We then leverage the SAM2's memory mechanism to extract cross-patch correspondences that embeds the cross-FoV dependencies, improving feature continuity and the prediction consistency along mask boundaries. For the second gap, OmniSAM fine-tunes the pretrained image encoder and reutilize the mask decoder for semantic prediction. An FoV-based prototypical adaptation module with dynamic pseudo label update mechanism is also introduced to facilitate the alignment of memory and backbone features, thereby improving model generalization ability across different sizes of source models. Extensive experimental results demonstrate that OmniSAM outperforms the state-of-the-art methods by large margins, e.g., 79.06% (+10.22%) on SPin8-to-SPan8, 62.46% (+6.58%) on CS13-to-DP13.
Abstract（参考訳）: Segment Anything Model 2 (SAM2) は様々なピンホール画像分割タスクにおいて強力なベースモデルとして登場した。しかし、それを360^\circ$ドメインに適用すると、ピンホール(70^\circ \times 70^\circ$)とパノラマ画像(180^\circ \times 360^\circ$)の間の大きな視野(FoV)ギャップが固有の課題となる。このアプリケーションには2つの主要な懸念点がある。 1) 領域間の大きなFoV差による避けられない歪み及び物体の変形 2)元のSAM2では提供できないピクセルレベルのセマンティック理解の欠如。これらの課題に対処するため,パノラマ的セマンティックセマンティックセグメンテーションにSAM2を適用しようとする新しいOmniSAMフレームワークを提案する。具体的には、最初のギャップを埋めるために、OmniSAMはまずパノラマをパッチのシーケンスに分割する。これらのパッチは、ビデオセグメンテーションタスクと同様の方法で、画像シーケンスとして扱われる。次に、SAM2のメモリ機構を利用して、FoV間の依存関係を埋め込んだクロスパッチ対応を抽出し、マスク境界に沿った機能継続性と予測一貫性を改善します。第2のギャップでは、OmniSAMは事前訓練されたイメージエンコーダを微調整し、意味予測のためにマスクデコーダを再利用する。動的擬似ラベル更新機構を備えたFoVベースのプロトタイプ適応モジュールも導入され,メモリとバックボーンの特徴のアライメントが容易になった。 OmniSAMはSPin8-to-SPan8では79.06%(+10.22%)、CS13-to-DP13では62.46%(+6.58%)である。

関連論文リスト

MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation [22.482211353379927]
大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
論文参考訳（メタデータ） (2025-03-09T17:33:15Z)
EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文参考訳（メタデータ） (2025-01-13T12:11:07Z)
GoodSAM++: Bridging Domain and Capacity Gaps via Segment Anything Model for Panoramic Semantic Segmentation [22.344399402787644]
GoodSAM++はSAMの強力なゼロショットインスタンスセグメンテーション機能を利用して、コンパクトなパノラマ意味セグメンテーションモデルを学ぶ新しいフレームワークである。 GoodSAM++は、1)パノラマ画像のセマンティックラベルと固有の歪み問題をSAMが提供できないこと、2)SAMと学生の間に大きな容量格差があること、の2つの重要な課題に対処する。
論文参考訳（メタデータ） (2024-08-17T06:53:10Z)
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-16T17:55:38Z)
From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。 SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。 SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文参考訳（メタデータ） (2024-08-12T17:17:35Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文参考訳（メタデータ） (2024-03-14T10:30:43Z)
BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。 SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文参考訳（メタデータ） (2024-01-04T15:34:44Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。