論文の概要: 3D Reconstruction from Transient Measurements with Time-Resolved Transformer
- arxiv url: http://arxiv.org/abs/2510.09205v1
- Date: Fri, 10 Oct 2025 09:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.611348
- Title: 3D Reconstruction from Transient Measurements with Time-Resolved Transformer
- Title(参考訳): 時間分解型変圧器を用いた過渡測定による3次元再構成
- Authors: Yue Li, Shida Sun, Yu Hong, Feihu Xu, Zhiwei Xiong,
- Abstract要約: 我々は,光子効率画像における3次元再構成性能を高めるため,TRT(Time-Resolved Transformer)アーキテクチャを提案する。
本稿では,NLOS 画像用 TRT-LOS と NLOS 用 TRT-NLOS の2つのタスク固有のエボディメントを開発する。
さらに,様々なノイズレベルを持つ大規模かつ高分解能な合成LOSデータセットをコントリビュートし,実世界のNLOS画像計測を行う。
- 参考スコア(独自算出の注目度): 48.73999376279579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transient measurements, captured by the timeresolved systems, are widely employed in photon-efficient reconstruction tasks, including line-of-sight (LOS) and non-line-of-sight (NLOS) imaging. However, challenges persist in their 3D reconstruction due to the low quantum efficiency of sensors and the high noise levels, particularly for long-range or complex scenes. To boost the 3D reconstruction performance in photon-efficient imaging, we propose a generic Time-Resolved Transformer (TRT) architecture. Different from existing transformers designed for high-dimensional data, TRT has two elaborate attention designs tailored for the spatio-temporal transient measurements. Specifically, the spatio-temporal self-attention encoders explore both local and global correlations within transient data by splitting or downsampling input features into different scales. Then, the spatio-temporal cross attention decoders integrate the local and global features in the token space, resulting in deep features with high representation capabilities. Building on TRT, we develop two task-specific embodiments: TRT-LOS for LOS imaging and TRT-NLOS for NLOS imaging. Extensive experiments demonstrate that both embodiments significantly outperform existing methods on synthetic data and real-world data captured by different imaging systems. In addition, we contribute a large-scale, high-resolution synthetic LOS dataset with various noise levels and capture a set of real-world NLOS measurements using a custom-built imaging system, enhancing the data diversity in this field. Code and datasets are available at https://github.com/Depth2World/TRT.
- Abstract(参考訳): 時間分解システムによって捉えられた過渡的な測定は、ラインオブアイ(LOS)や非ラインオブアイ(NLOS)イメージングなどの光子効率の高い再構成タスクに広く用いられている。
しかし、センサーの量子効率が低く、ノイズレベルが高いため、特に長距離や複雑なシーンでは3次元再構成に課題が残る。
光子効率画像における3次元再構成性能を向上させるために,TRT(Time-Resolved Transformer)アーキテクチャを提案する。
高次元データ用に設計された既存のトランスフォーマーとは異なり、TRTは時空間過渡測定に適した2つの精巧な注意設計を持つ。
具体的には、時空間自己注意エンコーダは、入力特徴を異なるスケールに分割またはダウンサンプリングすることで、過渡データ内の局所的および大域的相関を探索する。
そして、時空間のクロスアテンションデコーダはトークン空間の局所的特徴とグローバル的特徴を統合し、高い表現能力を持つ深い特徴をもたらす。
TRTをベースとした2つのタスク固有のエボディメント: LOS 用 TRT-LOS と NLOS 用 TRT-NLOS を開発した。
大規模な実験では、両方の実施形態が、異なるイメージングシステムによってキャプチャされた合成データや実世界のデータにおいて、既存の手法よりも大幅に優れていたことが示されている。
さらに、様々なノイズレベルを持つ大規模で高解像度の合成LOSデータセットをコントリビュートし、カスタム・ビルド・イメージング・システムを用いて実世界のNLOS計測を行い、この分野におけるデータの多様性を高める。
コードとデータセットはhttps://github.com/Depth2World/TRTで公開されている。
関連論文リスト
- Multispectral-NeRF:a multispectral modeling approach based on neural radiance fields [3.606065291262699]
2次元画像に基づく3次元再構成技術は、通常RGBスペクトル情報に依存する。
RGB以外のスペクトルバンドは、ますます3D再構成に組み込まれている。
これらのスペクトルデータを統合する既存の方法は、高価なスキーム価格、低い精度、幾何学的特徴に悩まされることが多い。
我々は、マルチスペクトル情報を効果的に統合できる、NeRFから派生した拡張ニューラルアーキテクチャであるMultispectral-NeRFを提案する。
論文 参考訳(メタデータ) (2025-09-14T09:04:35Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - Optimized Sampling for Non-Line-of-Sight Imaging Using Modified Fast Fourier Transforms [6.866110149269]
非線形(NLOS)イメージングシステムは拡散リレー面の光を収集し、3D再構成を出力する計算アルゴリズムに入力する。
これらのアルゴリズムは、Fast Fourier Transform (FFT) を用いて再構成プロセスを高速化するが、入力と出力の両方を均一な格子で空間的にサンプリングする必要がある。
本研究では,既存のNLOS撮像装置が典型的にリレー面を空間的にオーバーサンプリングし,再構成品質を犠牲にすることなく,なぜ圧縮できるのかを説明する。
論文 参考訳(メタデータ) (2025-01-09T13:52:30Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Deep Learning-based Cross-modal Reconstruction of Vehicle Target from Sparse 3D SAR Image [6.499547636078961]
本稿では,光学情報を融合させることで,車両のスパース3D SAR画像の高精細化を実現する3D-SAR再構成ネットワーク(CMAR-Net)を提案する。
CMAR-Netは、高度にスパースな観察から得られたスパース3次元SAR画像を視覚的に構造化された3次元車両画像に再構成し、効率的なトレーニングを実現する。
論文 参考訳(メタデータ) (2024-06-06T15:18:59Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。
LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。
我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文 参考訳(メタデータ) (2023-10-17T11:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。