論文の概要: Adaptive 3D Convolution for Remote Sensing Image Fusion
- arxiv url: http://arxiv.org/abs/2605.09455v1
- Date: Sun, 10 May 2026 10:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.25851
- Title: Adaptive 3D Convolution for Remote Sensing Image Fusion
- Title(参考訳): リモートセンシング画像融合のための適応型3次元畳み込み
- Authors: Siran Peng, Xiangyu Zhu, Shang-Qi Deng, Liang-Jian Deng, Zhen Lei,
- Abstract要約: 本稿では,リモートセンシング画像融合のための新しい3D畳み込みパラダイムであるAdaptive 3D Convolution(Ada3D)を提案する。
Ada3Dは各入力ボクセルにユニークな3Dカーネル群を適用し、細かな細部をキャプチャできる。
- 参考スコア(独自算出の注目度): 38.155412360978154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image fusion aims to create a high-resolution multi/hyper-spectral image from a high-resolution image with limited spectral information and a low-resolution image with abundant spectral data. Recently, deep learning (DL) techniques have shown significant effectiveness in this area. Most DL-based methods approach image fusion as a 2D problem by encoding spectral information into feature map channels. However, our research suggests that this strategy introduces notable spectral distortions. In contrast, some methods consider spectral data as an additional dimension, utilizing standard 3D convolutions to preserve spectral information. Nevertheless, in a standard 3D convolutional layer, the same set of kernels is applied across all input regions, which we have found to be sub-optimal for image fusion. Furthermore, standard 3D convolutions necessitate substantial computational resources. To address these challenges, we propose a novel convolutional paradigm called Adaptive 3D Convolution (Ada3D) for remote sensing image fusion. Ada3D applies a unique set of 3D kernels to each input voxel, enabling the capture of fine-grained details. These adaptive kernels are generated through a two-step process: (i) spatial and spectral kernels are derived from their respective image sources; (ii) these two types of kernels are then combined to form content-aware 3D kernels that effectively integrate spatial and spectral information. Additionally, adaptive biases are introduced to enhance the convolutional outcome at the voxel level. Furthermore, we incorporate the group convolution technique to reduce computational complexity. As a result, Ada3D offers full adaptivity in an efficient manner. Evaluation results across five datasets demonstrate that our method achieves SOTA performance, underscoring the superiority of Ada3D. The code is available at https://github.com/PSRben/Ada3D.
- Abstract(参考訳): リモートセンシング画像融合は、スペクトル情報に制限のある高解像度画像とスペクトルデータに富んだ低解像度画像から高解像度のマルチ・ハイパスペクトル画像を作成することを目的としている。
近年, 深層学習(DL)技術は, この分野において有意な効果を示した。
DLに基づくほとんどの手法は、スペクトル情報を特徴地図チャネルに符号化することで、2次元問題として画像融合にアプローチする。
しかし、本研究は、この戦略が顕著なスペクトル歪みをもたらすことを示唆している。
対照的に、標準的な3D畳み込みを利用してスペクトル情報を保存し、スペクトルデータを付加次元とみなす方法もある。
それにもかかわらず、標準的な3次元畳み込み層では、同じカーネルの集合が全ての入力領域にわたって適用され、画像融合に準最適であることが判明した。
さらに、標準的な3D畳み込みは、かなりの計算資源を必要とする。
これらの課題に対処するために、リモートセンシング画像融合のためのAdaptive 3D Convolution(Ada3D)と呼ばれる新しい畳み込みパラダイムを提案する。
Ada3Dは各入力ボクセルにユニークな3Dカーネル群を適用し、細かな細部をキャプチャできる。
これらの適応カーネルは2段階のプロセスによって生成される。
i) それぞれの画像源から空間及びスペクトル核を導出すること。
(II)これらの2種類のカーネルを結合してコンテンツ対応の3Dカーネルを形成し、空間情報とスペクトル情報を効果的に統合する。
さらに、ボクセルレベルでの畳み込み結果を高めるために適応バイアスが導入された。
さらに,計算複雑性を低減するためにグループ畳み込み手法を取り入れた。
その結果、Ada3Dは効率よく完全な適応性を提供する。
5つのデータセットに対する評価結果から,本手法がSOTA性能を達成し,Ada3Dの優位性を実証した。
コードはhttps://github.com/PSRben/Ada3Dで入手できる。
関連論文リスト
- TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment [58.46706158310462]
TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。
我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。
テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
論文 参考訳(メタデータ) (2026-01-27T06:30:32Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers [10.24051363232541]
マルチモーダルリモートセンシングデータ(スペクトル,ライダー,フォトグラムなど)は,都市景観における土地利用・土地被覆分類の達成に不可欠である。
本稿では,3Dポイントクラウド内のすべてのモダリティを融合する完全3Dベースの手法を提案し,専用のデュアルアテンショントランスモデルを用いる。
以上の結果から, 3次元融合は2次元法と比較して競争力があり, 3次元予測を提供することにより, 柔軟性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-29T07:45:19Z) - Feature Visualization in 3D Convolutional Neural Networks [1.3154296174423619]
本稿では, 3次元畳み込みカーネルのテクスチャや動きの好みを乱す新しい可視化手法を提案する。
いくつかの事前訓練されたモデルの様々な深さでカーネルを視覚化するアプローチを適用すると、その結果の可視化(特にモーションキャプチャー)が、3Dカーネルによって符号化された好みの動的パターンを明確にする。
論文 参考訳(メタデータ) (2025-05-12T09:31:31Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。
具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。
その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文 参考訳(メタデータ) (2025-03-08T09:10:31Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - Anisotropic Convolutional Networks for 3D Semantic Scene Completion [24.9671648682339]
セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。
異方性畳み込みと呼ばれる新しいモジュールを提案する。
固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。
論文 参考訳(メタデータ) (2020-04-05T07:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。