論文の概要: PanoSAMic: Panoramic Image Segmentation from SAM Feature Encoding and Dual View Fusion
- arxiv url: http://arxiv.org/abs/2601.07447v1
- Date: Mon, 12 Jan 2026 11:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.364015
- Title: PanoSAMic: Panoramic Image Segmentation from SAM Feature Encoding and Dual View Fusion
- Title(参考訳): PanoSAMic:SAM特徴符号化とデュアルビュー融合によるパノラマ画像分割
- Authors: Mahdi Chamseddine, Didier Stricker, Jason Rambach,
- Abstract要約: PanoSAMicは、事前トレーニングされたAnything(SAM)エンコーダを統合して、その広範なトレーニングを利用する。
我々はSAMエンコーダを多段機能に修正し、新しいセグメンツ融合モジュールを導入する。
我々のセマンティックデコーダは、パノラマ画像に付随する歪みやエッジの不連続性を克服するために、注意と二重ビュー融合を用いる。
- 参考スコア(独自算出の注目度): 16.433654468467324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing image foundation models are not optimized for spherical images having been trained primarily on perspective images. PanoSAMic integrates the pre-trained Segment Anything (SAM) encoder to make use of its extensive training and integrate it into a semantic segmentation model for panoramic images using multiple modalities. We modify the SAM encoder to output multi-stage features and introduce a novel spatio-modal fusion module that allows the model to select the relevant modalities and best features from each modality for different areas of the input. Furthermore, our semantic decoder uses spherical attention and dual view fusion to overcome the distortions and edge discontinuity often associated with panoramic images. PanoSAMic achieves state-of-the-art (SotA) results on Stanford2D3DS for RGB, RGB-D, and RGB-D-N modalities and on Matterport3D for RGB and RGB-D modalities. https://github.com/dfki-av/PanoSAMic
- Abstract(参考訳): 既存の画像基盤モデルは、主に視点画像に基づいて訓練された球面画像に最適化されていない。
PanoSAMicは、事前訓練されたSegment Anything(SAM)エンコーダを統合して、その広範なトレーニングを活用し、複数のモードを使用してパノラマ画像のセマンティックセマンティックセマンティックセマンティックモデルに統合する。
我々はSAMエンコーダを改良してマルチステージ特徴を出力し、入力の各モードから関連するモダリティと最良特徴を選択できる新しいスペーシャル・モーダル融合モジュールを導入する。
さらに, このセマンティックデコーダでは, パノラマ画像に付随する歪みやエッジの不連続を克服するために, 球面注意とデュアルビューフュージョンを用いている。
PanoSAMicは、RGB、RGB-D、RGB-D-NのStanford2D3DS、およびRGBおよびRGB-DのMatterport3Dに対して、最先端(SotA)結果を達成する。
https://github.com/dfki-av/PanoSAMic
関連論文リスト
- Multi-View Foundation Models [22.65339008198238]
ファンデーションモデルは、様々なコンピュータビジョンアプリケーションにおいて重要なツールである。
本稿では,ファンデーションモデルを多視点ファウンデーションモデルに変換する方法を提案する。
本稿では,トランスフォーマーをベースとした基礎モデルを,中間的な3次元アテンション層で拡張する方法を示す。
論文 参考訳(メタデータ) (2025-12-17T18:58:03Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - OmniSAM: Omnidirectional Segment Anything Model for UDA in Panoramic Semantic Segmentation [38.730173012619304]
Segment Anything Model 2 (SAM2) は様々なピンホール画像分割タスクにおいて強力なベースモデルとして登場した。
ピンホール(70円×70円)とパノラマ画像(180円×360円)の間には、ユニークな課題がある。
本稿では,パノラマセマンティックセマンティックセグメンテーションにSAM2を適用しようとする新しいOmniSAMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T09:21:08Z) - SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-16T03:09:49Z) - SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文 参考訳(メタデータ) (2024-09-07T13:07:59Z) - FusionSAM: Visual Multi-Modal Learning with Segment Anything [37.61598617788102]
本稿では,Segment Anything Model (SAM) をマルチモーダル画像セグメンテーションに導入する。
本稿では,LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
本手法は,マルチモーダル自動運転シナリオにおいてSAMとSAM2を著しく上回っている。
論文 参考訳(メタデータ) (2024-08-26T02:20:55Z) - Segment Anything with Multiple Modalities [61.74214237816402]
我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。
MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。
1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T03:45:40Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - Single Frame Semantic Segmentation Using Multi-Modal Spherical Images [0.0]
本稿では,マルチモーダル融合と全方向シーン認識のギャップを埋めるトランスフォーマーを用いたクロスモーダル融合アーキテクチャを提案する。
我々は、極端物体の変形とパノラマ歪みに対処するために歪み認識モジュールを用いる。
我々の技術は、Stanford2D3DS(RGB-HHA)60.60%、Structured3D(RGB-D-N)71.97%、Matterport3D(RGB-D)35.92%という最先端のmIoU性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T08:06:18Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。