論文の概要: Understanding Multi-View Transformers
- arxiv url: http://arxiv.org/abs/2510.24907v1
- Date: Tue, 28 Oct 2025 19:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.704441
- Title: Understanding Multi-View Transformers
- Title(参考訳): マルチビュートランスの理解
- Authors: Michal Stary, Julien Gaubil, Ayush Tewari, Vincent Sitzmann,
- Abstract要約: DUSt3Rのようなマルチビュートランスフォーマーは、フィードフォワード方式で3Dタスクを解くことで3Dビジョンに革命をもたらしている。
本稿では,多層変換器の残差接続から3次元表現を探索・可視化する手法を提案する。
- 参考スコア(独自算出の注目度): 18.573401296925844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view transformers such as DUSt3R are revolutionizing 3D vision by solving 3D tasks in a feed-forward manner. However, contrary to previous optimization-based pipelines, the inner mechanisms of multi-view transformers are unclear. Their black-box nature makes further improvements beyond data scaling challenging and complicates usage in safety- and reliability-critical applications. Here, we present an approach for probing and visualizing 3D representations from the residual connections of the multi-view transformers' layers. In this manner, we investigate a variant of the DUSt3R model, shedding light on the development of its latent state across blocks, the role of the individual layers, and suggest how it differs from methods with stronger inductive biases of explicit global pose. Finally, we show that the investigated variant of DUSt3R estimates correspondences that are refined with reconstructed geometry. The code used for the analysis is available at https://github.com/JulienGaubil/und3rstand .
- Abstract(参考訳): DUSt3Rのようなマルチビュートランスフォーマーは、フィードフォワード方式で3Dタスクを解くことで3Dビジョンに革命をもたらしている。
しかし、従来の最適化に基づくパイプラインとは対照的に、マルチビュートランスの内部メカニズムは不明確である。
ブラックボックスの性質は、データのスケーリングよりもさらに改善され、安全性と信頼性に重要なアプリケーションでの使用が複雑になる。
本稿では,多層変換器の残差接続から3次元表現を探索・可視化する手法を提案する。
このようにして、DUSt3Rモデルの変種について検討し、ブロック間の潜伏状態の発生、個々の層の役割について光を当て、露骨なグローバルポーズのより強い帰納的バイアスを持つ方法とどのように異なるかを提案する。
最後に、DUSt3Rの変種が再構成幾何で洗練された対応を推定することを示した。
分析に使用されるコードはhttps://github.com/JulienGaubil/und3rstandで公開されている。
関連論文リスト
- STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection [18.756000520353187]
ビュートランスフォーメーション・ロバストネス(VTR)は,深層学習に基づく多視点3次元オブジェクト再構成モデルにおいて重要である。
本稿では,3次元予測の空間分布を考慮した再構成誤り誘導ビュー選択法を提案する。
実験により,提案手法は最先端の3D再構成法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-16T03:54:08Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction [14.89364490991374]
本稿では,多視点特徴を符号化し,欠陥のある3Dオブジェクトを修正するための3次元粗大変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-05-29T06:01:42Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。