Fugu-MT 論文翻訳(概要): Segment Anything with Multiple Modalities

論文の概要: Segment Anything with Multiple Modalities

arxiv url: http://arxiv.org/abs/2408.09085v1
Date: Sat, 17 Aug 2024 03:45:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 22:46:56.242877
Title: Segment Anything with Multiple Modalities
Title（参考訳）: 複数のモダリティを持つセグメンテーション
Authors: Aoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu,
Abstract要約: 我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。 MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。 1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
参考スコア（独自算出の注目度）: 61.74214237816402
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Robust and accurate segmentation of scenes has become one core functionality in various visual recognition and navigation tasks. This has inspired the recent development of Segment Anything Model (SAM), a foundation model for general mask segmentation. However, SAM is largely tailored for single-modal RGB images, limiting its applicability to multi-modal data captured with widely-adopted sensor suites, such as LiDAR plus RGB, depth plus RGB, thermal plus RGB, etc. We develop MM-SAM, an extension and expansion of SAM that supports cross-modal and multi-modal processing for robust and enhanced segmentation with different sensor suites. MM-SAM features two key designs, namely, unsupervised cross-modal transfer and weakly-supervised multi-modal fusion, enabling label-efficient and parameter-efficient adaptation toward various sensor modalities. It addresses three main challenges: 1) adaptation toward diverse non-RGB sensors for single-modal processing, 2) synergistic processing of multi-modal data via sensor fusion, and 3) mask-free training for different downstream tasks. Extensive experiments show that MM-SAM consistently outperforms SAM by large margins, demonstrating its effectiveness and robustness across various sensors and data modalities.
Abstract（参考訳）: 様々な視覚認識やナビゲーションタスクにおいて、シーンのロバストで正確なセグメンテーションが中心的な機能となっている。これは、一般的なマスクセグメンテーションの基礎モデルであるSAM(Segment Anything Model)の最近の発展にインスピレーションを与えている。しかしSAMは単一モードのRGB画像に最適化されており、LiDAR+RGB、深さ+RGB、熱+RGBなど、広く採用されているセンサースイートでキャプチャされたマルチモーダルデータに適用可能である。 MM-SAMは、異なるセンサスイートによる堅牢で拡張されたセグメンテーションのための、クロスモーダルおよびマルチモーダル処理をサポートするSAMの拡張および拡張である。 MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という2つの重要な設計を特徴としている。主な3つの課題に対処する。 1)単一モード処理のための多様なRGB非RGBセンサへの適応 2【センサ融合によるマルチモーダルデータの相乗的処理】 3) 異なる下流作業に対するマスクフリートレーニング。広範囲な実験により、MM-SAMはSAMのマージンを大きく上回り、様々なセンサーやデータモダリティでその有効性と堅牢性を実証している。

関連論文リスト

Segment Any RGB-Thermal Model with Language-aided Distillation [17.837670087342456]
RGB-Tセマンティックセグメンテーションのための強力なSAMをカスタマイズする新しいフレームワークSARTMを提案する。我々のキーとなるアイデアはSAMの可能性を解き放ちつつ、RGB-Tデータペアのセマンティック理解モジュールを導入することです。定量的および定性的な結果は、提案したSARTMが最先端のアプローチを著しく上回っていることを一貫して示している。
論文参考訳（メタデータ） (2025-05-04T00:24:17Z)
MGD-SAM2: Multi-view Guided Detail-enhanced Segment Anything Model 2 for High-Resolution Class-agnostic Segmentation [6.976534642198541]
MGD-SAM2は、SAM2とグローバルイメージとローカルパッチ間のマルチビュー特徴相互作用を統合し、正確なセグメンテーションを実現する。 HRCS画像の局所的詳細や大域的意味を抽出するために,まずMPAdapterを導入し,SAM2エンコーダを適応させる。そこで, MCEM と HMIM は, 局所的なテクスチャとグローバルなコンテキストをさらに活用するために, マルチスケールにおける多視点特徴を集約することを提案する。
論文参考訳（メタデータ） (2025-03-31T07:02:32Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。 PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文参考訳（メタデータ） (2024-12-17T09:59:53Z)
Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。 SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文参考訳（メタデータ） (2024-12-05T14:54:31Z)
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文参考訳（メタデータ） (2024-10-15T00:52:16Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation [37.74045675588487]
SAMをマルチモーダル画像セグメンテーションに初めて導入する。本稿では、SAMのマルチモーダル融合とセグメンテーション機能を強化するために、LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-26T02:20:55Z)
Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文参考訳（メタデータ） (2024-08-08T09:09:37Z)
Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文参考訳（メタデータ） (2024-05-02T17:59:57Z)
WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文参考訳（メタデータ） (2024-03-14T10:30:43Z)
Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。 1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文参考訳（メタデータ） (2023-11-27T12:51:42Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
RGB-D Salient Object Detection with Cross-Modality Modulation and Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文参考訳（メタデータ） (2020-07-14T14:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。