Fugu-MT 論文翻訳(概要): Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond

論文の概要: Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond

arxiv url: http://arxiv.org/abs/2503.01210v1
Date: Mon, 03 Mar 2025 06:16:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.847769
Title: Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond
Title（参考訳）: SAMのドロップカウント:マルチモーダル画像融合のためのセマンティックプリミティブを受け入れる
Authors: Guanyao Wu, Haoyu Liu, Hongming Fu, Yichuan Peng, Jinyuan Liu, Xin Fan, Risheng Liu,
Abstract要約: マルチモダリティ画像融合は、シーン理解を強化するために多様なモダリティを統合する上で重要な役割を担っている。近年のアプローチはタスク固有の設計に移行しているが、不整合最適化の目標のために両世界のベストを達成するのに苦労している。本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性(SAGE)を確立させる手法を提案する。
参考スコア（独自算出の注目度）: 52.486290612938895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modality image fusion, particularly infrared and visible image fusion, plays a crucial role in integrating diverse modalities to enhance scene understanding. Early research primarily focused on visual quality, yet challenges remain in preserving fine details, making it difficult to adapt to subsequent tasks. Recent approaches have shifted towards task-specific design, but struggle to achieve the ``The Best of Both Worlds'' due to inconsistent optimization goals. To address these issues, we propose a novel method that leverages the semantic knowledge from the Segment Anything Model (SAM) to Grow the quality of fusion results and Establish downstream task adaptability, namely SAGE. Specifically, we design a Semantic Persistent Attention (SPA) Module that efficiently maintains source information via the persistent repository while extracting high-level semantic priors from SAM. More importantly, to eliminate the impractical dependence on SAM during inference, we introduce a bi-level optimization-driven distillation mechanism with triplet losses, which allow the student network to effectively extract knowledge at the feature, pixel, and contrastive semantic levels, thereby removing reliance on the cumbersome SAM model. Extensive experiments show that our method achieves a balance between high-quality visual results and downstream task adaptability while maintaining practical deployment efficiency.
Abstract（参考訳）: マルチモダリティ画像融合、特に赤外線および可視画像融合は、シーン理解を高めるために多様なモダリティを統合する上で重要な役割を担っている。初期の研究は主に視覚的品質に重点を置いていたが、細部を細かく保存することは依然として課題であり、その後のタスクに適応することは困難である。近年のアプローチはタスク固有の設計に移行しているが,不整合最適化の目標のため,'The Best of Both Worlds'の達成に苦慮している。これらの課題に対処するために,Segment Anything Model (SAM) のセグメンテーションモデル(Segment Anything Model) のセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性(SAGE)を確立する手法を提案する。具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。さらに,推論におけるSAMの非現実的依存を解消するため,三重項損失を伴う二段階最適化方式の蒸留機構を導入し,学生ネットワークが特徴,画素,コントラストのセマンティックレベルでの知識を効果的に抽出し,面倒なSAMモデルへの依存を排除した。大規模実験により,本手法は実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性とのバランスを達成できることが判明した。

関連論文リスト

Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文参考訳（メタデータ） (2026-02-23T00:33:38Z)
Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching [42.22268167379098]
我々は、画像融合をソースモーダルから融合画像分布への直接確率的輸送として定式化する。タスク毎に最も信頼性の高い擬似ラベルを選択するためにタスク認識選択関数を用いる。マルチタスクシナリオでは、弾力的な重み強化と経験的再生機構を統合し、クロスタスク性能を維持する。
論文参考訳（メタデータ） (2025-11-17T02:56:48Z)
SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [38.09521879556221]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。 SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-08-07T10:58:52Z)
SAMO: A Lightweight Sharpness-Aware Approach for Multi-Task Optimization with Joint Global-Local Perturbation [11.368244787718673]
SAM(Sharpness-aware minimization)は、タスクの損失を最小限に抑えつつ、損失ランドスケープのシャープさを小さくする。我々は,軽量な textbfSharpness-textbfAware textbfMulti-task textbfOptimization アプローチである SAMO を提案する。
論文参考訳（メタデータ） (2025-07-10T16:06:02Z)
SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [12.964308630328688]
赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。 ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文参考訳（メタデータ） (2025-05-29T07:55:23Z)
SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation [24.914583619821585]
超高解像度(UHR)衛星画像のセマンティックセグメンテーションのための新しいフレームワークFを紹介する。提案手法は, セマンティックリオーダーと再サンプリングに基づくデータ拡張戦略と並行して, マルチスケールの収穫手法を組み込むことにより, ロングテールクラス分布に対処する。 URUR, GID, FBPデータセットを用いた実験では,mIoUが3.33%, 0.66%, 0.98%向上し, 最先端性能が得られた。
論文参考訳（メタデータ） (2025-04-28T14:39:59Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。 SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文参考訳（メタデータ） (2024-11-26T08:33:25Z)
There is no SAMantics! Exploring SAM as a Backbone for Visual Understanding Tasks [15.061599989448867]
Segment Anything Model (SAM) はもともとラベルに依存しないマスク生成のために設計された。分類タスクにおけるベース画像エンコーダの有効性を比較することにより,SAMのセマンティック能力の定量化を図る。その結果,SAM特徴表現における意味的識別性の欠如が明らかとなった。
論文参考訳（メタデータ） (2024-11-22T17:00:18Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文参考訳（メタデータ） (2024-05-01T00:13:05Z)
GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation [22.344399402787644]
本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。 2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
論文参考訳（メタデータ） (2024-03-25T02:30:32Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-09-15T07:12:27Z)
A Task-guided, Implicitly-searched and Meta-initialized Deep Model for Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文参考訳（メタデータ） (2023-05-25T08:54:08Z)
Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文参考訳（メタデータ） (2023-05-11T10:55:34Z)
Task Aware Feature Extraction Framework for Sequential Dependence Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文参考訳（メタデータ） (2023-01-06T13:12:59Z)
Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文参考訳（メタデータ） (2022-12-16T02:43:52Z)
Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文参考訳（メタデータ） (2022-12-01T02:20:16Z)
Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文参考訳（メタデータ） (2022-06-21T17:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。