Fugu-MT 論文翻訳(概要): GHOST: Ground-projected Hypotheses from Observed Structure-from-Motion Trajectories

論文の概要: GHOST: Ground-projected Hypotheses from Observed Structure-from-Motion Trajectories

arxiv url: http://arxiv.org/abs/2603.20583v1
Date: Sat, 21 Mar 2026 00:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:38.98096
Title: GHOST: Ground-projected Hypotheses from Observed Structure-from-Motion Trajectories
Title（参考訳）: GHOST:観測された構造-運動軌道からの地中投射仮説
Authors: Tomasz Frelek, Rohan Patil, Akshar Tumu, Henrik I. Christensen,
Abstract要約: 本稿では,モノクル画像から車両軌道を分割して自律走行する,スケーラブルな自己教師型アプローチを提案する。記録した自走車の動きを暗黙の監視として扱い,モノクラー構造によるカメラ軌跡の復元を行った。以上の結果から, 大規模エゴモーション蒸留は構造と一般化可能な経路の提案をもたらすことが示唆された。
参考スコア（独自算出の注目度）: 1.9318925338937918
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a scalable self-supervised approach for segmenting feasible vehicle trajectories from monocular images for autonomous driving in complex urban environments. Leveraging large-scale dashcam videos, we treat recorded ego-vehicle motion as implicit supervision and recover camera trajectories via monocular structure-from-motion, projecting them onto the ground plane to generate spatial masks of traversed regions without manual annotation. These automatically generated labels are used to train a deep segmentation network that predicts motion-conditioned path proposals from a single RGB image at run time, without explicit modeling of road or lane markings. Trained on diverse, unconstrained internet data, the model implicitly captures scene layout, lane topology, and intersection structure, and generalizes across varying camera configurations. We evaluate our approach on NuScenes, demonstrating reliable trajectory prediction, and further show transfer to an electric scooter platform through light fine-tuning. Our results indicate that large-scale ego-motion distillation yields structured and generalizable path proposals beyond the demonstrated trajectory, enabling trajectory hypothesis estimation via image segmentation.
Abstract（参考訳）: 複雑な都市環境下での自律運転のための単眼画像から実現可能な車両軌道を分割するためのスケーラブルな自己教師型アプローチを提案する。大規模ダッシュカムビデオを活用することで,記録したエゴ車の動きを暗黙の監視として扱い,モノクラー構造によるカメラ軌道の復元を行い,それらを地上面に投影し,手動のアノテーションを使わずに横断領域の空間マスクを生成する。これらの自動生成ラベルは、道路や車線標識を明示的にモデル化することなく、実行時に単一のRGB画像から動作条件付きパス提案を予測するディープセグメンテーションネットワークのトレーニングに使用される。多様な、制約のないインターネットデータに基づいてトレーニングされたこのモデルは、シーンレイアウト、レーントポロジ、交差点構造を暗黙的にキャプチャし、様々なカメラ構成を一般化する。我々は、NuScenesに対するアプローチを評価し、信頼性の高い軌道予測を示し、さらに光微調整による電動スクータープラットフォームへのトランスファーを示す。以上の結果から, 大規模エゴモーション蒸留では, 画像分割による軌道仮説推定が可能となり, 路面形状や経路の一般化が可能であることが示唆された。

関連論文リスト

Diffusion-FS: Multimodal Free-Space Prediction via Diffusion for Autonomous Driving [7.667821982085968]
自由空間予測は、自律運転における基本的で決定的な問題である。最近の研究は、非障害物道路地域全体を自由空間として表現することでこの問題に対処している。本研究の目的は,道路地域全体の航行可能なサブセットである運転回廊を推定することである。
論文参考訳（メタデータ） (2025-07-24T19:30:55Z)
DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input [45.04354435388718]
フレキシブル・サラウンド・ビュー・インプットから運転シーンを再構成するフィードフォワードガウス・スプレイティング・モデルを提案する。我々は、ポーズネットワーク、ディープネットワーク、およびガウスネットワークを共同でトレーニングし、運転シーンを表すプリミティブを予測する。提案モデルでは,既存のフィードフォワードやシーン最適化の手法よりも再現性が高い。
論文参考訳（メタデータ） (2024-09-19T13:16:04Z)
Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文参考訳（メタデータ） (2024-04-11T10:26:40Z)
BEVSeg2TP: Surround View Camera Bird's-Eye-View Based Joint Vehicle Segmentation and Ego Vehicle Trajectory Prediction [4.328789276903559]
軌道予測は自動車の自律性にとって重要な課題である。学習に基づく軌道予測への関心が高まっている。認識能力を向上させる可能性があることが示される。
論文参考訳（メタデータ） (2023-12-20T15:02:37Z)
SEPT: Towards Efficient Scene Representation Learning for Motion Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2023-09-26T21:56:03Z)
Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文参考訳（メタデータ） (2023-01-11T18:39:34Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。