論文の概要: SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.18774v1
- Date: Thu, 19 Mar 2026 11:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.113852
- Title: SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction
- Title(参考訳): SEAR: RGB+サーマル3D再構成のためのビジュアル幾何変換器の簡易かつ効率的な適応
- Authors: Vsevolod Skorokhodov, Chenghao Xu, Shuo Sun, Olga Fink, Malcolm Mielle,
- Abstract要約: 本稿では,事前学習した幾何学変換器をマルチモーダルRGB-T入力に適応させる戦略であるSEARを提案する。
提案手法は,3次元再構成とカメラポーズ推定において,最先端の手法よりも優れていた。
大規模なアブレーション研究を通じてアーキテクチャを検証し、モデルが両方のモダリティをどのように整合させるかを示す。
- 参考スコア(独自算出の注目度): 28.61594700250136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundational feed-forward visual geometry models enable accurate and efficient camera pose estimation and scene reconstruction by learning strong scene priors from massive RGB datasets. However, their effectiveness drops when applied to mixed sensing modalities, such as RGB-thermal (RGB-T) images. We observe that while a visual geometry grounded transformer pretrained on RGB data generalizes well to thermal-only reconstruction, it struggles to align RGB and thermal modalities when processed jointly. To address this, we propose SEAR, a simple yet efficient fine-tuning strategy that adapts a pretrained geometry transformer to multimodal RGB-T inputs. Despite being trained on a relatively small RGB-T dataset, our approach significantly outperforms state-of-the-art methods for 3D reconstruction and camera pose estimation, achieving significant improvements over all metrics (e.g., over 29\% in AUC@30) and delivering higher detail and consistency between modalities with negligible overhead in inference time compared to the original pretrained model. Notably, SEAR enables reliable multimodal pose estimation and reconstruction even under challenging conditions, such as low lighting and dense smoke. We validate our architecture through extensive ablation studies, demonstrating how the model aligns both modalities. Additionally, we introduce a new dataset featuring RGB and thermal sequences captured at different times, viewpoints, and illumination conditions, providing a robust benchmark for future work in multimodal 3D scene reconstruction. Code and models are publicly available at https://www.github.com/Schindler-EPFL-Lab/SEAR.
- Abstract(参考訳): 基礎的なフィードフォワード視覚幾何学モデルにより、大規模なRGBデータセットから強いシーン先行を学習することにより、正確で効率的なカメラポーズ推定とシーン再構築が可能になる。
しかし、RGB-thermal (RGB-T) 画像のような混合センシングモダリティに適用した場合、その効果は低下する。
我々は、RGBデータに基づいて事前訓練された視覚幾何学的基底変換器が、熱のみの再構成によく適応するのに対し、共同処理時にRGBと熱モダリティの整合に苦慮していることを観察した。
そこで本研究では,事前学習した幾何学変換器をマルチモーダルRGB-T入力に適応させる簡易かつ効率的な微調整戦略であるSEARを提案する。
比較的小さなRGB-Tデータセットでトレーニングされているにもかかわらず、我々のアプローチは3D再構成とカメラポーズ推定の最先端手法を著しく上回り、全ての指標(例えばAUC@30では29\%以上)を大幅に改善し、元の事前訓練モデルと比較して予測時間において無視できないオーバーヘッドを伴うモダリティ間の詳細と一貫性を提供する。
特にSEARは、低照度や密煙といった困難な条件下であっても、信頼性の高いマルチモーダルポーズ推定と再構築を可能にする。
大規模なアブレーション研究を通じてアーキテクチャを検証し、モデルが両方のモダリティをどのように整合させるかを示す。
さらに、RGBと熱シーケンスを異なる時間、視点、照明条件でキャプチャする新しいデータセットを導入し、マルチモーダル3Dシーン再構成における将来の作業のための堅牢なベンチマークを提供する。
コードとモデルはhttps://www.github.com/Schindler-EPFL-Lab/SEAR.comで公開されている。
関連論文リスト
- EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes [31.16499311793949]
E3Rは、非同期イベントストリームによるポイントマップベースの再構築を強化する、新しい幾何推定フレームワークである。
EAG3Rは、モノクロ深度推定、カメラポーズトラッキング、動的再構成タスクにおいて、最先端のRGBのみのベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-11-30T08:05:28Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning [34.727262809777095]
我々は、RGB-IRセマンティックタスクのためのスケーラブルで効率的なフレームワークUniRGB-IRを提案する。
本フレームワークは,視覚変換器(ViT)基礎モデル,マルチモーダル特徴プール(SFI)モジュール,補助特徴プール(SFI)モジュールの3つの主要コンポーネントから構成される。
各種RGB-IRセマンティックタスクの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。