論文の概要: Supercharging Thermal Gaussian Splatting with Depth Estimation
- arxiv url: http://arxiv.org/abs/2605.30328v1
- Date: Thu, 28 May 2026 17:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.739079
- Title: Supercharging Thermal Gaussian Splatting with Depth Estimation
- Title(参考訳): 深さ推定による過給熱ガウス平滑化
- Authors: Manoj Biswanath, Chenxin Cai, Hannah Schieber, Daniel Roth, Benjamin Busam,
- Abstract要約: 本研究では, 熱画像のみを用いた温度-深度ガウス散乱法(TDg)を提案する。
平均的に、学習された知覚的イメージパッチ類似度(LPIPS)、構造的類似度指標(SSIM)、TDgのピーク信号対雑音比(PSNR)などのレンダリング品質指標は、ベースラインMSMG値よりも1.12%、0.034%、0.01%良い。
- 参考スコア(独自算出の注目度): 17.284356190513005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient and robust 3D scene representation is crucial in autonomous driving, robotics, and related fields. While RGB images provide valuable content for 3D reconstruction, other modalities like thermal or depth can enable additional information on the environment. Lately, novel view synthesis methods like 3D Gaussian Splatting have started using multiple modalities to further boost their performance. But fusing or combining multimodal data can make the process slower and can bring in additional challenges. Therefore, our project aims to use single modality based on thermal infrared domain, by removing the reliance on visible light as much as possible. This single modality can be expected to be faster as it does not rely on multimodal data. We propose a method, Thermal-to-Depth Gaussian Splatting (TDg), that uses only thermal images and depth estimation in its architecture to derive the radiance fields. Our TDg method outperforms the MSMG (Multiple Single-Modal Gaussians) baseline in most cases on our test datasets, RGBT-Scenes and ThermalMix. On average, the rendering quality metrics such as learned perceptual image patch similarity (LPIPS), structural similarity index measure (SSIM), and peak signal-to-noise ratio (PSNR) of TDg are 1.12%, 0.034%, and 0.01% better than the baseline MSMG values. It also reduces the training time significantly, by 12 mins 47 secs (55% improvement). Overall, our method is successful in deriving these thermal radiance fields, which can ultimately have several applications, such as identifying heat sources critical in surveillance, search or rescue operations, and industrial inspections where temperature is widely used to monitor machines.
- Abstract(参考訳): 効率的で堅牢な3Dシーン表現は、自律運転、ロボット工学、および関連する分野において不可欠である。
RGB画像は3D再構成に有用なコンテンツを提供するが、熱や深度といった他のモダリティは環境に関する追加情報を可能にする。
近年,3次元ガウス・スプレイティングのような新しいビュー合成手法が,その性能向上のために複数のモダリティの使用を開始している。
しかし、マルチモーダルデータの融合や結合はプロセスを遅くし、さらなる課題をもたらす可能性がある。
そこで本研究の目的は、可視光への依存を極力取り除き、熱赤外領域に基づく単一モードの利用である。
この単一のモダリティは、マルチモーダルデータに依存しないため、より高速であることが期待できる。
本研究では, 熱画像のみを用いた温度-深度ガウス散乱法(TDg)を提案する。
我々のTDg法はMSMG(Multiple Single-Modal Gaussian)ベースラインよりも優れている。
平均的に、学習された知覚的イメージパッチ類似度(LPIPS)、構造的類似度指標(SSIM)、TDgのピーク信号対雑音比(PSNR)などのレンダリング品質指標は、ベースラインMSMG値よりも1.12%、0.034%、0.01%良い。
また、トレーニング時間を12分47秒(55%改善)で大幅に短縮する。
本手法は, 監視, 探索, 救助活動に不可欠な熱源の同定, 機器の温度監視に広く用いられている産業検査など, 最終的にいくつかの応用が期待できる熱放射界の導出に成功している。
関連論文リスト
- A Conditional U-Net Pipeline with Pre- and Post-Processing for Aerial RGB-to-Thermal Image Translation [0.21964656111848832]
本稿では,気象データをボトルネック層に組み込んだ条件付きU-Netを提案する。
我々は、612対のRGBと熱画像のトレーニングセットを使用し、5倍以上のクロスバリデーションを評価し、最終的にホールドアウトテストセットでテストする。
条件付きU-Netモデルは,ピーク信号対雑音比14.5485,構造類似度指標(SSIM)0.8095,知覚的画像パッチ類似度(LPIPS)0.1666で最高の性能を示した。
論文 参考訳(メタデータ) (2026-05-17T17:49:01Z) - SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction [28.61594700250136]
本稿では,事前学習した幾何学変換器をマルチモーダルRGB-T入力に適応させる戦略であるSEARを提案する。
提案手法は,3次元再構成とカメラポーズ推定において,最先端の手法よりも優れていた。
大規模なアブレーション研究を通じてアーキテクチャを検証し、モデルが両方のモダリティをどのように整合させるかを示す。
論文 参考訳(メタデータ) (2026-03-19T11:27:21Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - ThermalGaussian: Thermal 3D Gaussian Splatting [25.536611434289647]
本研究では,RGBの高画質画像と熱モダリティのレンダリングが可能な,最初のサーマル3DGS手法であるMaterialGaussianを提案する。
本研究では,熱画像のフォトリアリスティックレンダリングを実現し,RGB画像のレンダリング品質を向上させるための総合的な実験を行った。
論文 参考訳(メタデータ) (2024-09-11T11:45:57Z) - EM-GANSim: Real-time and Accurate EM Simulation Using Conditional GANs for 3D Indoor Scenes [55.2480439325792]
実時間電磁伝搬のための新しい機械学習手法(EM-GANSim)を提案する。
実際には、3D屋内環境のあらゆる場所で数ミリ秒で信号強度を計算することができる。
論文 参考訳(メタデータ) (2024-05-27T17:19:02Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。