Fugu-MT 論文翻訳(概要): Multi-Sensor Diffusion-Driven Optical Image Translation for Large-Scale Applications

論文の概要: Multi-Sensor Diffusion-Driven Optical Image Translation for Large-Scale Applications

arxiv url: http://arxiv.org/abs/2404.11243v4
Date: Wed, 04 Dec 2024 11:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 02:08:29.246177
Title: Multi-Sensor Diffusion-Driven Optical Image Translation for Large-Scale Applications
Title（参考訳）: 大規模応用のためのマルチセンサ拡散駆動型光画像変換
Authors: João Gabriel Vinholi, Marco Chini, Anis Amziane, Renato Machado, Danilo Silva, Patrick Matgen,
Abstract要約: 本稿では,大規模な低空間分解能画像を,異なる光学センサから高分解能に高分解能に分解する手法を提案する。提案手法は, 高精度な領域適応, 画像内容の保存, 精度の向上, 特徴表現の両立を実現する。我々は,0.1884のLearned Perceptual Image Patch similarity (mLPIPS) と45.64のFr'echet Inception Distance (FID) に到達し,比較したすべての手法を表現的に上回る結果を得た。
参考スコア（独自算出の注目度）: 3.4085512042262374
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Comparing images captured by disparate sensors is a common challenge in remote sensing. This requires image translation -- converting imagery from one sensor domain to another while preserving the original content. Denoising Diffusion Implicit Models (DDIM) are potential state-of-the-art solutions for such domain translation due to their proven superiority in multiple image-to-image translation tasks in computer vision. However, these models struggle with reproducing radiometric features of large-scale multi-patch imagery, resulting in inconsistencies across the full image. This renders downstream tasks like Heterogeneous Change Detection impractical. To overcome these limitations, we propose a method that leverages denoising diffusion for effective multi-sensor optical image translation over large areas. Our approach super-resolves large-scale low spatial resolution images into high-resolution equivalents from disparate optical sensors, ensuring uniformity across hundreds of patches. Our contributions lie in new forward and reverse diffusion processes that address the challenges of large-scale image translation. Extensive experiments using paired Sentinel-II (10m) and Planet Dove (3m) images demonstrate that our approach provides precise domain adaptation, preserving image content while improving radiometric accuracy and feature representation. A thorough image quality assessment and comparisons with the standard DDIM framework and five other leading methods are presented. We reach a mean Learned Perceptual Image Patch Similarity (mLPIPS) of 0.1884 and a Fr\'echet Inception Distance (FID) of 45.64, expressively outperforming all compared methods, including DDIM, ShuffleMixer, and SwinIR. The usefulness of our approach is further demonstrated in two Heterogeneous Change Detection tasks.
Abstract（参考訳）: 異なるセンサーで撮影された画像を比較することは、リモートセンシングにおいて一般的な課題である。これは、元のコンテンツを保持しながら、あるセンサードメインから別のセンサードメインへのイメージ変換を必要とする。 Denoising Diffusion Implicit Models (DDIM) は、コンピュータビジョンにおける複数の画像から画像への変換タスクにおいて、そのようなドメイン翻訳が優れていることが証明されたため、最先端のソリューションの可能性を秘めている。しかし,これらのモデルでは,大規模マルチパッチ画像の放射能特性の再現に苦慮し,全画像に矛盾が生じている。これは、不均一な変更検出のような下流タスクを非現実的にレンダリングする。これらの制限を克服するために,広帯域での効率的なマルチセンサ光画像変換に拡散のデノナイズを利用する手法を提案する。我々のアプローチは、大規模な低空間分解能画像を、異なる光学センサから高解像度に分解し、数百のパッチの均一性を確保する。我々の貢献は、大規模な画像翻訳の課題に対処する新しい前方および逆拡散プロセスにある。組合わせのSentinel-II (10m) とPlanet Dove (3m) 画像を用いた大規模な実験により, この手法が正確な領域適応, 画像内容の保存, 精度の向上, 特徴表現の両立を図った。標準DDIMフレームワークと他の5つの先行手法との徹底的な画像品質評価と比較を行った。我々は,0.1884のLearned Perceptual Image Patch similarity (mLPIPS) と45.64のFr'echet Inception Distance (FID) に到達し,DDIM, ShuffleMixer, SwinIR など,比較したすべての手法を明示的に上回っている。さらに,2つの異種変化検出タスクにおいて,本手法の有用性を実証した。

関連論文リスト

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model [8.619958921346184]
マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。我々は,新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。実験は、様々なマルチモーダル登録タスクにおいて、精度と効率が優れていることを示す。
論文参考訳（メタデータ） (2025-04-08T13:32:56Z)
MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文参考訳（メタデータ） (2024-09-23T09:22:45Z)
Cross-Domain Separable Translation Network for Multimodal Image Change Detection [11.25422609271201]
マルチモーダル変化検出(MCD)はリモートセンシングコミュニティにおいて特に重要である。本稿では,MDDの課題,特に異なるセンサの画像を比較することの難しさに対処することに焦点を当てる。これらの制限を克服するために、新しい教師なしクロスドメイン分離型翻訳ネットワーク(CSTN)が提案されている。
論文参考訳（メタデータ） (2024-07-23T03:56:02Z)
Accelerating Diffusion for SAR-to-Optical Image Translation via Adversarial Consistency Distillation [5.234109158596138]
本稿では,SAR-to-optical Image translationのための新しいトレーニングフレームワークを提案する。本手法では, 画像の明瞭度を保証し, 色変化を最小限に抑えるために, 反復推論ステップの低減に一貫性蒸留を用い, 対角学習を統合した。その結果,提案手法は生成画像の視覚的品質を維持しつつ,推論速度を131倍向上させることを示した。
論文参考訳（メタデータ） (2024-07-08T16:36:12Z)
Rethinking Score Distillation as a Bridge Between Image Distributions [97.27476302077545]
提案手法は, 劣化した画像(ソース)を自然画像分布(ターゲット)に転送することを目的としている。本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior [13.148815217684277]
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。既存の手法では、鮮明なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
論文参考訳（メタデータ） (2024-05-11T16:06:16Z)
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文参考訳（メタデータ） (2024-03-15T12:45:40Z)
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。 MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-12-11T18:38:28Z)
Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文参考訳（メタデータ） (2023-11-30T15:06:10Z)
Domain Transfer in Latent Space (DTLS) Wins on Image Super-Resolution -- a Non-Denoising Model [13.326634982790528]
本稿では,ガウス雑音から逃れる単純な手法を提案するが,画像超解像のための拡散モデルの基本構造を採用する。実験結果から,本手法は最先端の大規模超解像モデルだけでなく,画像超解像に対する現在の拡散モデルよりも優れていた。
論文参考訳（メタデータ） (2023-11-04T09:57:50Z)
Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。 DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文参考訳（メタデータ） (2023-05-15T20:24:38Z)
Decoupled-and-Coupled Networks: Self-Supervised Hyperspectral Image Super-Resolution with Subpixel Fusion [67.35540259040806]
サブピクセルレベルのHS超解像フレームワークを提案する。名前が示すように、DC-Netはまず入力を共通(またはクロスセンサー)とセンサー固有のコンポーネントに分離する。我々は,CSUネットの裏側に自己教師付き学習モジュールを付加し,素材の整合性を保証し,復元されたHS製品の詳細な外観を向上する。
論文参考訳（メタデータ） (2022-05-07T23:40:36Z)
A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文参考訳（メタデータ） (2021-04-29T17:49:48Z)
Boosting Image Super-Resolution Via Fusion of Complementary Information Captured by Multi-Modal Sensors [21.264746234523678]
イメージスーパーレゾリューション(sr)は、低解像度光センサの画質を向上させる有望な技術である。本稿では,安価なチャネル(可視・深度)からの補完情報を活用して,少ないパラメータを用いて高価なチャネル(熱)の画像品質を向上させる。
論文参考訳（メタデータ） (2020-12-07T02:15:28Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)
DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文参考訳（メタデータ） (2020-03-15T08:13:16Z)
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-08T16:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。