Fugu-MT 論文翻訳(概要): CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images

論文の概要: CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images

arxiv url: http://arxiv.org/abs/2503.09514v1
Date: Wed, 12 Mar 2025 16:25:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.849645
Title: CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images
Title（参考訳）: CM-Diff:赤外画像と可視画像の双方向相互変換拡散モデルのための単一生成ネットワーク
Authors: Bin Hu, Chenqiang Gao, Shurui Liu, Junjie Guo, Fang Chen, Fangcen Liu,
Abstract要約: 近赤外モードと可視モードの両方でデータ分布を同時にモデル化するための相互モダリティ変換拡散モデル(CM-Diff)。本稿では,生成した画像が目標モダリティのデータ分布に密着することを保証するため,統計的制約推論(SCI)戦略を提案する。
参考スコア（独自算出の注目度）: 11.426914250145572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The image translation method represents a crucial approach for mitigating information deficiencies in the infrared and visible modalities, while also facilitating the enhancement of modality-specific datasets. However, existing methods for infrared and visible image translation either achieve unidirectional modality translation or rely on cycle consistency for bidirectional modality translation, which may result in suboptimal performance. In this work, we present the cross-modality translation diffusion model (CM-Diff) for simultaneously modeling data distributions in both the infrared and visible modalities. We address this challenge by combining translation direction labels for guidance during training with cross-modality feature control. Specifically, we view the establishment of the mapping relationship between the two modalities as the process of learning data distributions and understanding modality differences, achieved through a novel Bidirectional Diffusion Training (BDT) strategy. Additionally, we propose a Statistical Constraint Inference (SCI) strategy to ensure the generated image closely adheres to the data distribution of the target modality. Experimental results demonstrate the superiority of our CM-Diff over state-of-the-art methods, highlighting its potential for generating dual-modality datasets.
Abstract（参考訳）: 画像翻訳法は、赤外線および可視光度における情報不足を緩和するための重要なアプローチであり、同時に、モダリティ固有のデータセットの強化を容易にする。しかし、既存の赤外線と可視画像の変換法は、一方向のモダリティ変換を達成するか、二方向のモダリティ変換のサイクル整合性に依存するかのいずれかであり、それによって最適化性能が低下する可能性がある。本研究では、赤外・可視両方のデータ分布を同時にモデル化するための相互モダリティ変換拡散モデル(CM-Diff)を提案する。この課題に対処するために、トレーニング中の指導のための翻訳方向ラベルと、モダリティ横断的な特徴制御を組み合わせる。具体的には,2つのモダリティ間のマッピング関係の確立を,新たな双方向拡散訓練(BDT)戦略によって達成された,データ分布の学習とモダリティ差の理解のプロセスとみなす。さらに、生成した画像が目標モダリティのデータ分布に密着することを保証するため、統計的制約推論(SCI)戦略を提案する。実験により, CM-Diffが最先端手法よりも優れていることを示すとともに, マルチモーダリティデータセットの生成の可能性を強調した。

関連論文リスト

Dual-branch Prompting for Multimodal Machine Translation [9.903997553625253]
本稿では,D2P-MMTを提案する。D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT)。 D2P-MMTは、事前学習した拡散モデルによって生成されたソーステキストと再構成画像のみを必要とする。 Multi30Kデータセットの実験により、D2P-MMTは既存の最先端手法よりも優れた翻訳性能が得られることが示された。
論文参考訳（メタデータ） (2025-07-23T15:22:51Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Unsupervised Visible-Infrared ReID via Pseudo-label Correction and Modality-level Alignment [23.310509459311046]
UVI-ReID (unsupervised visible-infrared person re-identification) が近年注目されている。従来手法では, UVI-ReIDを実現するためにモダリティ内クラスタリングとクロスモダリティ特徴マッチングが用いられていた。
論文参考訳（メタデータ） (2024-04-10T02:03:14Z)
Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation [18.895926089773177]
クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。
論文参考訳（メタデータ） (2024-04-01T13:23:04Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Zero-shot-Learning Cross-Modality Data Translation Through Mutual Information Guided Stochastic Diffusion [5.795193288204816]
モダリティ間のデータ変換は、画像処理に大きな関心を集めている。本稿では,MIDiffusion(Multual Information Diffusion Guided cross-modality data translation Model)という,教師なしゼロショット学習手法を提案する。我々は,MIDiffusionの高度な性能を,有意な生成モデル群と比較して実証的に示す。
論文参考訳（メタデータ） (2023-01-31T16:24:34Z)
Unsupervised Medical Image Translation with Adversarial Diffusion Models [0.2770822269241974]
ソース・トゥ・ターゲット・モダリティ変換による画像の欠落の計算は、医用画像プロトコルの多様性を向上させることができる。本稿では, 医用画像翻訳の性能向上のための逆拡散モデルであるSynDiffを提案する。
論文参考訳（メタデータ） (2022-07-17T15:53:24Z)
Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文参考訳（メタデータ） (2022-06-21T07:29:37Z)
Dual Diffusion Implicit Bridges for Image-to-Image Translation [104.59371476415566]
画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。 DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
論文参考訳（メタデータ） (2022-03-16T04:10:45Z)
Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文参考訳（メタデータ） (2021-12-13T08:58:03Z)
Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。 CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文参考訳（メタデータ） (2021-11-30T04:30:10Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。