Fugu-MT 論文翻訳(概要): Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization

論文の概要: Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2605.06049v1
Date: Thu, 07 May 2026 11:34:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.728395
Title: Fusion in Your Way: Aligning Image Fusion with Heterogeneous Demands via Direct Preference Optimization
Title（参考訳）: 道の融合:直接選好最適化による不均一な需要を伴う画像融合の調整
Authors: Weijian Su, Songqian Zhang, Yuqi Han, Jian Zhuang, Yongdong Huang, Qiang Zhang,
Abstract要約: マルチモーダル処理、赤外線および可視画像融合(IVIF)における重要な技術は、視覚強調および下流視覚タスクのための補完スペクトル情報の統合において重要な役割を担っている。本稿では,PALDMとPCLDMを統合したDPOFusionを提案する。我々のフレームワークは、人間、視覚言語モデル、タスク駆動ネットワーク間の正確な優先順位調整を実現するだけでなく、適応的な融合品質とタスク指向の伝達性のための新しいベンチマークも設定する。
参考スコア（独自算出の注目度）: 9.744491531292393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As a key technique in multi-modal processing, infrared and visible image fusion (IVIF) plays a crucial role in integrating complementary spectral information for visual enhancement and downstream vision tasks. Despite remarkable progress, existing methods struggle to flexibly accommodate heterogeneous demands. Achieving adaptive fusion that aligns with various preferences from both human and machine vision remains an open and challenging problem. To address this challenge, we propose DPOFusion, a direct preference optimization (DPO) framework integrating the property-aligned latent diffusion model (PALDM) and the preference-controllable latent diffusion model (PCLDM), enabling task-guided, preference-adaptive IVIF for both human and machine vision. The PALDM leverages a latent fusion prior and a joint conditional loss to generate diverse candidate fusion results with various properties. PCLDM is subsequently fine-tuned via instance direct preference optimization (IDPO), enabling direct control of the final fusion results with heterogeneous preference signals. Experimental results demonstrate that our framework not only attains precise preference alignment among humans, vision-language models, and task-driven networks, but also sets a new benchmark for adaptive fusion quality and task-oriented transferability.
Abstract（参考訳）: マルチモーダル処理における重要な技術として、赤外線と可視画像融合(IVIF)は、視覚強調および下流視覚タスクのための補完スペクトル情報の統合において重要な役割を担っている。目覚ましい進歩にもかかわらず、既存の手法は不均一な要求に柔軟に対応するのに苦労している。人間と機械の視界の両方の様々な好みに合わせて適応的な融合を実現することは、オープンで挑戦的な問題である。この課題に対処するために、DPOFusionを提案する。DPOFusionは、プロパティ整合潜時拡散モデル(PALDM)とPCLDMを統合したDPOフレームワークで、ヒューマンビジョンとマシンビジョンの両方にタスク誘導、嗜好適応IVIFを可能にする。 PALDMは、遅延核融合とジョイント条件損失を利用して、様々な特性を持つ多様な候補核融合結果を生成する。その後、PCLDMはインスタンス直接選好最適化(IDPO)によって微調整され、不均一な選好信号で最終融合結果を直接制御できる。実験結果から,本フレームワークは人間,視覚言語モデル,タスク駆動型ネットワーク間の正確な選好アライメントを実現するだけでなく,適応型融合品質とタスク指向トランスファービリティのベンチマークも設定した。

関連論文リスト

Active Diffusion Matching: Score-based Iterative Alignment of Cross-Modal Retinal Images [43.88837473377858]
本研究は,SFI(Standard Fundus Images)とUWFI(Ultra-Widefield Fundus Images)の連携の課題に対処することを目的とする。現在、このタスクには特別な方法はなく、既存の画像アライメント技術には精度が欠けている。クロスモーダルアライメント法であるActive Diffusion Matching (ADM)を提案する。
論文参考訳（メタデータ） (2026-04-11T08:06:28Z)
CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文参考訳（メタデータ） (2026-01-12T13:36:48Z)
Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval [11.724675700368316]
Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。マルチモーダルアライメントのために設計された高効率・データ効率の新たな生成編集フレームワークであるFusion-Diffを提案する。
論文参考訳（メタデータ） (2025-12-01T13:04:55Z)
ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection [21.26826497960086]
ゼロショット異常検出(ZSAD)によるVLMの事前訓練パラメータ効率のよい畳み込み型低ランク適応 (Conv-LoRA) アダプタを提案する。また、テキストプロンプトを適応的に変調するために視覚的コンテキストを活用する動的フュージョンゲートウェイ(DFG)を導入する。
論文参考訳（メタデータ） (2025-08-11T10:03:45Z)
SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion [65.80051636480836]
本稿では,Segment Anything Model(SAM)によって導かれる条件拡散モデルを提案する。このフレームワークは2段階のプロセスで動作し、まずマルチモーダルな特徴の予備的な融合を行い、その後、拡散モデルの粗大な分極生成を駆動する条件としてセマンティックマスクを利用する。 SGDFuseは主観的評価と客観的評価の両方において最先端の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-08-07T10:58:52Z)
D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples [23.92307798902212]
本稿では,DPO学習可能な視覚的一貫したサンプルを構築する手法であるD-Fusionを紹介する。一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。
論文参考訳（メタデータ） (2025-05-28T06:03:41Z)
Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。適応型モダリティインタラクションネットワークである textbfAMINet を提案する。 AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文参考訳（メタデータ） (2025-02-28T15:42:58Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。