Fugu-MT 論文翻訳(概要): Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond

論文の概要: Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond

arxiv url: http://arxiv.org/abs/2503.01210v2
Date: Tue, 25 Mar 2025 07:55:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:57.946884
Title: Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond
Title（参考訳）: SAMのドロップカウント:マルチモーダル画像融合のためのセマンティックプリミティブを受け入れる
Authors: Guanyao Wu, Haoyu Liu, Hongming Fu, Yichuan Peng, Jinyuan Liu, Xin Fan, Risheng Liu,
Abstract要約: 本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
参考スコア（独自算出の注目度）: 52.486290612938895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modality image fusion, particularly infrared and visible, plays a crucial role in integrating diverse modalities to enhance scene understanding. Although early research prioritized visual quality, preserving fine details and adapting to downstream tasks remains challenging. Recent approaches attempt task-specific design but rarely achieve "The Best of Both Worlds" due to inconsistent optimization goals. To address these issues, we propose a novel method that leverages the semantic knowledge from the Segment Anything Model (SAM) to Grow the quality of fusion results and Enable downstream task adaptability, namely SAGE. Specifically, we design a Semantic Persistent Attention (SPA) Module that efficiently maintains source information via the persistent repository while extracting high-level semantic priors from SAM. More importantly, to eliminate the impractical dependence on SAM during inference, we introduce a bi-level optimization-driven distillation mechanism with triplet losses, which allow the student network to effectively extract knowledge. Extensive experiments show that our method achieves a balance between high-quality visual results and downstream task adaptability while maintaining practical deployment efficiency. The code is available at https://github.com/RollingPlain/SAGE_IVIF.
Abstract（参考訳）: マルチモダリティ画像融合(特に赤外線と可視光)は、シーン理解を高めるために多様なモダリティを統合する上で重要な役割を担っている。初期の研究は視覚的品質を優先していたが、細部を保存し、下流のタスクに適応することは依然として困難である。近年の手法では、タスク固有の設計を試みるが、不整合最適化目標のため、"The Best of Both Worlds"を達成できない。これらの問題に対処するために、Segment Anything Model (SAM) のセグメンテーションモデル(Segment Anything Model) のセグメンテーション知識を利用して、融合結果の質を向上し、下流タスク適応性、すなわち SAGE を実現する新しい手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。さらに,推論におけるSAMの非現実的依存を解消するために,三重項損失を伴う二段階最適化駆動蒸留機構を導入し,学生ネットワークが知識を効果的に抽出できるようにする。大規模実験により,本手法は実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性とのバランスを達成できることが判明した。コードはhttps://github.com/RollingPlain/SAGE_IVIFで公開されている。

関連論文リスト

SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation [24.914583619821585]
超高解像度(UHR)衛星画像のセマンティックセグメンテーションのための新しいフレームワークFを紹介する。提案手法は, セマンティックリオーダーと再サンプリングに基づくデータ拡張戦略と並行して, マルチスケールの収穫手法を組み込むことにより, ロングテールクラス分布に対処する。 URUR, GID, FBPデータセットを用いた実験では,mIoUが3.33%, 0.66%, 0.98%向上し, 最先端性能が得られた。
論文参考訳（メタデータ） (2025-04-28T14:39:59Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。 SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文参考訳（メタデータ） (2024-11-26T08:33:25Z)
There is no SAMantics! Exploring SAM as a Backbone for Visual Understanding Tasks [15.061599989448867]
Segment Anything Model (SAM) はもともとラベルに依存しないマスク生成のために設計された。分類タスクにおけるベース画像エンコーダの有効性を比較することにより,SAMのセマンティック能力の定量化を図る。その結果,SAM特徴表現における意味的識別性の欠如が明らかとなった。
論文参考訳（メタデータ） (2024-11-22T17:00:18Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文参考訳（メタデータ） (2024-05-01T00:13:05Z)
GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation [22.344399402787644]
本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。 2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
論文参考訳（メタデータ） (2024-03-25T02:30:32Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-09-15T07:12:27Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文参考訳（メタデータ） (2023-05-11T10:55:34Z)
Task Aware Feature Extraction Framework for Sequential Dependence Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文参考訳（メタデータ） (2023-01-06T13:12:59Z)
Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文参考訳（メタデータ） (2022-12-01T02:20:16Z)
Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文参考訳（メタデータ） (2022-06-21T17:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。