Fugu-MT 論文翻訳(概要): Towards Viewpoint-Robust End-to-End Autonomous Driving with 3D Foundation Model Priors

論文の概要: Towards Viewpoint-Robust End-to-End Autonomous Driving with 3D Foundation Model Priors

arxiv url: http://arxiv.org/abs/2604.00597v1
Date: Wed, 01 Apr 2026 08:04:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.895075
Title: Towards Viewpoint-Robust End-to-End Autonomous Driving with 3D Foundation Model Priors
Title（参考訳）: 3Dファウンデーションモデルによるエンド・ツー・エンド自動運転の視点化に向けて
Authors: Hiroki Hashimoto, Hiromichi Goto, Hiroyuki Sugai, Hiroshi Kera, Kazuhiko Kawamoto,
Abstract要約: 本研究では,3次元基礎モデルから幾何的先行性を利用する拡張自由アプローチについて検討する。深度推定から導出される画素あたりの3D位置を位置埋め込みとして注入し、クロスアテンションを通して中間幾何学的特徴を融合する。
参考スコア（独自算出の注目度）: 11.0589601314909
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust trajectory planning under camera viewpoint changes is important for scalable end-to-end autonomous driving. However, existing models often depend heavily on the camera viewpoints seen during training. We investigate an augmentation-free approach that leverages geometric priors from a 3D foundation model. The method injects per-pixel 3D positions derived from depth estimates as positional embeddings and fuses intermediate geometric features through cross-attention. Experiments on the VR-Drive camera viewpoint perturbation benchmark show reduced performance degradation under most perturbation conditions, with clear improvements under pitch and height perturbations. Gains under longitudinal translation are smaller, suggesting that more viewpoint-agnostic integration is needed for robustness to camera viewpoint changes.
Abstract（参考訳）: カメラ視点の変化下でのロバストな軌道計画は、スケーラブルなエンドツーエンドの自動運転にとって重要である。しかし、既存のモデルはトレーニング中に見るカメラの視点に大きく依存することが多い。本研究では,3次元基礎モデルから幾何的先行性を利用する拡張自由アプローチについて検討する。深度推定から導出される画素あたりの3D位置を位置埋め込みとして注入し、クロスアテンションを通して中間幾何学的特徴を融合する。 VR-Driveカメラ視点摂動ベンチマークの実験では、ほとんどの摂動条件下での性能劣化が減少し、ピッチと高さ摂動下での明らかな改善が見られた。長手翻訳での利得は小さく、カメラ視点の変化に対する堅牢性には、より視点に依存しない統合が必要であることを示唆している。

関連論文リスト

Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。 Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文参考訳（メタデータ） (2026-02-08T08:01:16Z)
ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文参考訳（メタデータ） (2026-01-12T13:44:14Z)
DriveVGGT: Visual Geometry Transformer for Autonomous Driving [50.5036123750788]
DriveVGGTは、自動運転データ用に特別に設計された、スケール対応の4D再構成フレームワークである。マルチカメラ映像を個別に処理するための時間的ビデオアテンション(TVA)モジュールを提案する。そこで本研究では,正規化された相対ポーズ埋め込みによるウィンドウアテンションを実現するため,マルチカメラ・コンセントレンシ・アテンション(MCA)モジュールを提案する。
論文参考訳（メタデータ） (2025-11-27T09:40:43Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
UniDrive: Towards Universal Driving Perception Across Camera Configurations [38.40168936403638]
3次元認識は,3次元2次元投影に基づく2次元画像から3次元情報を推測することを目的としている。カメラ構成をまたいだ一般化は、異なる自動車モデルに自律運転モデルをデプロイする上で重要である。我々は、カメラ構成全体にわたって普遍的な認識を実現するために、視覚中心の自律運転のための新しいフレームワークUniDriveを提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:59Z)
Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。 DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文参考訳（メタデータ） (2022-05-23T23:05:07Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Wide-Baseline Relative Camera Pose Estimation with Directional Learning [46.21836501895394]
提案するDirectionNetは,新しいパラメータ化を用いて5次元相対ポーズ空間上の離散分布を推定し,推定問題を抽出できるようにする。本研究では,Matterport3DとInstituteNetから構築した合成・実ポーズ推定データセットについて検討した。
論文参考訳（メタデータ） (2021-06-07T04:46:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。