論文の概要: ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling
- arxiv url: http://arxiv.org/abs/2601.15897v1
- Date: Thu, 22 Jan 2026 12:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.595857
- Title: ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling
- Title(参考訳): ThermoSplat: 特徴変調と幾何デカップリングを併用したクロスモーダル3次元ガウス平滑化
- Authors: Zhaoqi Su, Shihai Chen, Xinyan Lin, Liqin Huang, Zhipeng Su, Xiaoqiang Lu,
- Abstract要約: ThermoSplatは、アクティブな特徴変調と適応幾何学的デカップリングにより、スペクトル認識の深い再構成を可能にする新しいフレームワークである。
RGBT-Scenesデータセットの実験により、ThermoSplatは可視スペクトルと熱スペクトルの両方にわたって最先端のレンダリング品質を達成することが示された。
- 参考スコア(独自算出の注目度): 11.169420448510095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal scene reconstruction integrating RGB and thermal infrared data is essential for robust environmental perception across diverse lighting and weather conditions. However, extending 3D Gaussian Splatting (3DGS) to multi-spectral scenarios remains challenging. Current approaches often struggle to fully leverage the complementary information of multi-modal data, typically relying on mechanisms that either tend to neglect cross-modal correlations or leverage shared representations that fail to adaptively handle the complex structural correlations and physical discrepancies between spectrums. To address these limitations, we propose ThermoSplat, a novel framework that enables deep spectral-aware reconstruction through active feature modulation and adaptive geometry decoupling. First, we introduce a Cross-Modal FiLM Modulation mechanism that dynamically conditions shared latent features on thermal structural priors, effectively guiding visible texture synthesis with reliable cross-modal geometric cues. Second, to accommodate modality-specific geometric inconsistencies, we propose a Modality-Adaptive Geometric Decoupling scheme that learns independent opacity offsets and executes an independent rasterization pass for the thermal branch. Additionally, a hybrid rendering pipeline is employed to integrate explicit Spherical Harmonics with implicit neural decoding, ensuring both semantic consistency and high-frequency detail preservation. Extensive experiments on the RGBT-Scenes dataset demonstrate that ThermoSplat achieves state-of-the-art rendering quality across both visible and thermal spectrums.
- Abstract(参考訳): RGBと熱赤外データを統合したマルチモーダルシーン再構築は、様々な照明や気象条件をまたいだ環境認識に不可欠である。
しかし、3Dガウス散乱(3DGS)をマルチスペクトルシナリオに拡張することは依然として困難である。
現在のアプローチでは、多モードデータの補完的な情報を十分に活用するのに苦労することが多く、一般的には、クロスモーダルな相関を無視したり、複雑な構造的相関やスペクトル間の物理的不一致を適応的に扱えない共有表現を利用するメカニズムに依存している。
このような制約に対処するために,アクティブな特徴変調と適応幾何デカップリングによるスペクトル認識の深い再構成を可能にする新しいフレームワークであるThermoSplatを提案する。
まず, 動的条件で熱構造上の潜在特性を共有するクロスモーダルFiLM変調機構を導入し, 信頼性の高いクロスモーダル幾何的キューによる視覚的テクスチャ合成を効果的に導く。
第2に、モード比幾何不整合に対応するために、独立不透明オフセットを学習し、熱ブランチに対して独立ラスタ化パスを実行するModality-Adaptive Geometric Decouplingスキームを提案する。
さらに、ハイブリッドレンダリングパイプラインを使用して、明示的な球高調波と暗黙的なニューラルデコードを統合することで、セマンティック一貫性と高周波ディテール保存の両立を保証する。
RGBT-Scenesデータセットの大規模な実験により、ThermoSplatは可視スペクトルと熱スペクトルの両方にわたって最先端のレンダリング品質を達成することが示された。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Veila: Panoramic LiDAR Generation from a Monocular RGB Image [18.511014983119274]
現実的で制御可能なパノラマLiDARデータ生成は、自律運転およびロボット工学におけるスケーラブルな3D知覚に不可欠である。
空間制御信号として単眼RGB画像を活用することは、スケーラブルで低コストな代替手段を提供する。
局所的な信頼性に応じて意味と深度を統合した新しい条件拡散フレームワークであるVeilaを提案する。
論文 参考訳(メタデータ) (2025-08-05T17:59:53Z) - SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion [0.0]
本稿では3つの重要な要素を統合した動的3次元シーン再構成のための新しいフレームワークを提案する。
明示的な三面変形場、球面調和(SH)注目の視野条件付き正準場、時間的に認識される潜在拡散。
提案手法は,時間とともに進化する3つの2次元特徴面を用いて4次元シーンを符号化し,効率的なコンパクト表現を実現する。
論文 参考訳(メタデータ) (2025-05-22T11:25:38Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [49.37555541088792]
位相振幅デカップリング(PAD)は、位相(モダリティ共有)と振幅(モダリティ補完)を分離する周波数対応のフレームワークである。
この研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - Unleashing Correlation and Continuity for Hyperspectral Reconstruction from RGB Images [64.80875911446937]
RGB画像からのHSI再構成のための相関連続性ネットワーク(CCNet)を提案する。
局所スペクトルの相関について,GrSCM(Group-wise Spectral correlation Modeling)モジュールを紹介する。
グローバルスペクトルの連続性のために、我々はNeSCMモジュールを設計する。
論文 参考訳(メタデータ) (2025-01-02T15:14:40Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Learning Exhaustive Correlation for Spectral Super-Resolution: Where Spatial-Spectral Attention Meets Linear Dependence [26.1694389791047]
スペクトル超解像は、容易に取得可能なRGB画像からハイパースペクトル像(HSI)を復元することを目的としている。
既存のTransformerのボトルネックは2種類あり、パフォーマンスの改善と実用性に制限がある。
スペクトル超解像のための新しい Exhaustive correlation Transformer (ECT) を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:30:07Z) - Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification [42.15709954199397]
本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
論文 参考訳(メタデータ) (2023-11-17T04:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。