論文の概要: EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track
- arxiv url: http://arxiv.org/abs/2603.06753v1
- Date: Fri, 06 Mar 2026 12:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.085227
- Title: EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track
- Title(参考訳): EarthBridge: 4th Multi-modal Aerial View Image Challenge Translation Trackのソリューション
- Authors: Zhenyuan Chen, Guanyuan Shen, Feng Zhang,
- Abstract要約: エレクトロオプティカル・オプティカル(EO)、赤外線(IR)、合成開口レーダ(SAR)センサー間の画像・画像間の相互変換は、総合的な航空ビュー解析に不可欠である。
本稿は,第4回多目的航空ビュー画像チャレンジ(MAVIC-T)のために開発された高忠実度翻訳フレームワークである textbfEarthBridge について述べる。
その結果,MAVIC-Tのスコアは0.38で,MAVIC-Tのスコアは2位となった。
- 参考スコア(独自算出の注目度): 5.330035721949073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-modal image-to-image translation among Electro-Optical (EO), Infrared (IR), and Synthetic Aperture Radar (SAR) sensors is essential for comprehensive multi-modal aerial-view analysis. However, translating between these modalities is notoriously difficult due to their distinct electromagnetic signatures and geometric characteristics. This paper presents \textbf{EarthBridge}, a high-fidelity translation framework developed for the 4th Multi-modal Aerial View Image Challenge -- Translation (MAVIC-T). We explore two distinct methodologies: \textbf{Diffusion Bridge Implicit Models (DBIM)}, which we generalize using non-Markovian bridge processes for high-quality deterministic sampling, and \textbf{Contrastive Unpaired Translation (CUT)}, which utilizes contrastive learning for structural consistency. Our EarthBridge framework employs a channel-concatenated UNet denoiser trained with Karras-weighted bridge scalings and a specialized "booting noise" initialization to handle the inherent ambiguity in cross-modal mappings. We evaluate these methods across all four challenge tasks (SAR$\rightarrow$EO, SAR$\rightarrow$RGB, SAR$\rightarrow$IR, RGB$\rightarrow$IR), achieving superior spatial detail and spectral accuracy. Our solution achieved a composite score of 0.38, securing the second position on the MAVIC-T leaderboard. Code is available at https://github.com/Bili-Sakura/EarthBridge-Preview.
- Abstract(参考訳): EO(Electro-Optical)、赤外線(Infrared)、SAR(Synthetic Aperture Radar)センサー間の画像・画像間の相互変換は、総合的なマルチモーダル空中ビュー解析に不可欠である。
しかし、これらのモダリティ間の変換は、電磁的特徴と幾何学的特性の相違から、非常に難しい。
本稿では,第4回マルチモーダル航空ビュー画像チャレンジ-翻訳(MAVIC-T)のために開発された高忠実度翻訳フレームワークである「textbf{EarthBridge}」について述べる。
我々は,高品質な決定論的サンプリングのために非マルコフブリッジプロセスを用いたDBIM法と,コントラスト学習を用いた構造整合性向上のためのCUT法という,2つの異なる手法を探索する。
我々のEarthBridgeフレームワークは、Karras重み付きブリッジスケーリングで訓練されたチャネル結合UNetデノイザと、クロスモーダルマッピングの固有のあいまいさを扱うための特殊な"ブートノイズ"初期化を採用している。
SAR$\rightarrow$EO, SAR$\rightarrow$RGB, SAR$\rightarrow$IR, RGB$\rightarrow$IRの4つの課題にまたがってこれらの手法を評価する。
その結果,MAVIC-Tのスコアは0.38で,MAVIC-Tのスコアは2位となった。
コードはhttps://github.com/Bili-Sakura/EarthBridge-Preview.comから入手できる。
関連論文リスト
- Deterministic Image-to-Image Translation via Denoising Brownian Bridge Models with Dual Approximators [5.59333453533085]
双対近似器を用いたブラウン橋モデル(双対近似橋)を提案する。
ベンチマークデータセットの実験では、Dual-approx Bridgeの一貫性と優れた性能が示されている。
論文 参考訳(メタデータ) (2025-12-29T13:45:21Z) - VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing [59.73939718087177]
シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
論文 参考訳(メタデータ) (2025-12-12T11:39:35Z) - A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization [49.13032757301023]
我々はRoboSense 2025 Track 4: Cross-Modal Drone Navigationに勝利のソリューションを提示する。
タスクは、大規模なマルチプラットフォームコーパスから最も関連性の高いジオレファレンス画像を取得する。
我々は、差別力を高めるために、プログレッシブな2段階の強硬なマイニング戦略を用いて、3つのプラットフォーム専門家を訓練する。
論文 参考訳(メタデータ) (2025-10-23T07:23:47Z) - Multimodal HD Mapping for Intersections by Intelligent Roadside Units [21.3691460430126]
複素交叉のハイデフィニション(HD)意味マッピングは、車両ベースのアプローチに重大な課題をもたらす。
本稿では,高度インテリジェントロードサイドユニット(IRU)を活用したカメラ-LiDAR融合フレームワークを提案する。
本稿では,V2X-Seqデータセットの体系的拡張とアノテーションを通じて開発された包括的データセットであるRS-seqを提案する。
論文 参考訳(メタデータ) (2025-07-11T08:45:56Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification [5.863175733097434]
特徴レベルでの非対称性の問題に対処するため,非対称セマンティックアライニングネットワーク (ASANet) という新しいアーキテクチャを提案する。
提案するASANetは,2つのモード間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。
我々は、新しいRGB-SARマルチモーダルデータセットを構築し、ASANetは1.21%から17.69%の改善で他の主流メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-03T00:03:33Z) - LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization [0.9562145896371785]
本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
論文 参考訳(メタデータ) (2023-12-27T17:23:57Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
論文 参考訳(メタデータ) (2021-05-26T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。