論文の概要: The Moon's Many Faces: A Single Unified Transformer for Multimodal Lunar Reconstruction
- arxiv url: http://arxiv.org/abs/2505.05644v1
- Date: Thu, 08 May 2025 20:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.082789
- Title: The Moon's Many Faces: A Single Unified Transformer for Multimodal Lunar Reconstruction
- Title(参考訳): 月面の多面性:マルチモーダル月面再建のための単一統一変圧器
- Authors: Tom Sander, Moritz Tenthoff, Kay Wohlfarth, Christian Wöhler,
- Abstract要約: 月面画像の反射率パラメータ推定と画像に基づく3次元再構成はマルチモーダル学習問題として定式化できる。
複数のソース間で共有表現を学習するために訓練された単一統一型トランスフォーマーアーキテクチャを提案する。
我々の基礎モデルは,これらの4つのモダリティの物理的に妥当な関係を学習することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning is an emerging research topic across multiple disciplines but has rarely been applied to planetary science. In this contribution, we identify that reflectance parameter estimation and image-based 3D reconstruction of lunar images can be formulated as a multimodal learning problem. We propose a single, unified transformer architecture trained to learn shared representations between multiple sources like grayscale images, digital elevation models, surface normals, and albedo maps. The architecture supports flexible translation from any input modality to any target modality. Predicting DEMs and albedo maps from grayscale images simultaneously solves the task of 3D reconstruction of planetary surfaces and disentangles photometric parameters and height information. Our results demonstrate that our foundation model learns physically plausible relations across these four modalities. Adding more input modalities in the future will enable tasks such as photometric normalization and co-registration.
- Abstract(参考訳): マルチモーダル学習は、複数の分野にまたがる新たな研究課題であるが、惑星科学にはほとんど適用されていない。
本研究では,月面画像の反射率パラメータ推定と画像に基づく3次元再構成をマルチモーダル学習問題として定式化できることを示す。
グレースケール画像、デジタル標高モデル、表面正規化、アルベドマップなどの複数のソース間の共有表現を学習するために訓練された単一の統一トランスフォーマーアーキテクチャを提案する。
このアーキテクチャは任意の入力モダリティから任意のターゲットモダリティへの柔軟な変換をサポートする。
グレースケール画像からのDEMとアルベドマップの予測は、同時に惑星表面の3次元再構成の課題を解決し、測光パラメータと高さ情報を切り離す。
我々の基礎モデルは,これらの4つのモダリティの物理的に妥当な関係を学習することを示す。
将来、より多くの入力モダリティを追加することで、測光正規化や共同登録といったタスクが可能になる。
関連論文リスト
- IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MS-PS: A Multi-Scale Network for Photometric Stereo With a New
Comprehensive Training Dataset [0.0]
光度ステレオ(PS)問題は、物体の3次元表面を再構成することである。
そこで我々は,PSのマルチスケールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-25T14:01:54Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - ResDepth: A Deep Prior For 3D Reconstruction From High-resolution
Satellite Images [28.975837416508142]
ResDepthは畳み込みニューラルネットワークで、例データからそのような表現幾何学を学習する。
一連の実験において,提案手法はステレオDSMを定量的かつ定性的に一貫的に改善することがわかった。
ネットワーク重みに符号化された先行符号化は、都市デザインの意義ある幾何学的特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2021-06-15T12:51:28Z) - Photometric Multi-View Mesh Refinement for High-Resolution Satellite
Images [24.245977127434212]
最先端の復元手法は一般的に2.5次元の標高データを生成する。
マルチビュー衛星画像から全3次元表面メッシュを復元する手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T20:37:54Z) - Generalizing Spatial Transformers to Projective Geometry with
Applications to 2D/3D Registration [11.219924013808852]
微分レンダリングは、3Dシーンと対応する2D画像とを接続する技術である。
本稿では,空間変換器を射影幾何学に一般化する新しい射影空間変換器モジュールを提案する。
論文 参考訳(メタデータ) (2020-03-24T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。