論文の概要: Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference
- arxiv url: http://arxiv.org/abs/2409.10095v2
- Date: Tue, 04 Mar 2025 09:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:10:18.055083
- Title: Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference
- Title(参考訳): 異なる運転視点のためのヒューマンインサイト駆動潜時空間:効率的なマルチタスク推論のための統一エンコーダ
- Authors: Huy-Dung Nguyen, Anass Bairouk, Mirjana Maras, Wei Xiao, Tsun-Hsuan Wang, Patrick Chareyre, Ramin Hasani, Marc Blanchon, Daniela Rus,
- Abstract要約: 都市交通に不可欠な複数のコンピュータビジョンタスクを訓練した統一型エンコーダを提案する。
人間の知覚機構に類似した多様な視覚的手がかりを統合することで、エンコーダはナビゲーション関連の予測を強化する豊富な特徴をキャプチャする。
その結果,(1) 統合エンコーダは,すべての視覚的認識タスク間での競合性能を達成し,強力な一般化能力を示すこと,(2) ステアリング推定のために,凍結された統合エンコーダを平均化することにより,その微細な調整された表現と,ImageNetのような汎用データセットで事前訓練された同じ凍結モデルの両方に優れることがわかった。
- 参考スコア(独自算出の注目度): 43.474068248379815
- License:
- Abstract: Autonomous driving systems require a comprehensive understanding of the environment, achieved by extracting visual features essential for perception, planning, and control. However, models trained solely on single-task objectives or generic datasets often lack the contextual information needed for robust performance in complex driving scenarios. In this work, we propose a unified encoder trained on multiple computer vision tasks crucial for urban driving, including depth, pose, and 3D scene flow estimation, as well as semantic, instance, panoptic, and motion segmentation. By integrating these diverse visual cues-similar to human perceptual mechanisms-the encoder captures rich features that enhance navigation-related predictions. We evaluate the model on steering estimation as a downstream task, leveraging its dense latent space. To ensure efficient multi-task learning, we introduce a multi-scale feature network for pose estimation and apply knowledge distillation from a multi-backbone teacher model. Our findings highlight two key findings: (1) the unified encoder achieves competitive performance across all visual perception tasks, demonstrating strong generalization capabilities; and (2) for steering estimation, the frozen unified encoder-leveraging dense latent representations-outperforms both its fine-tuned counterpart and the same frozen model pretrained on generic datasets like ImageNet. These results underline the significance of task-specific visual features and demonstrate the promise of multi-task learning in advancing autonomous driving systems. More details and the pretrained model are available at https://hi-computervision.github.io/uni-encoder/.
- Abstract(参考訳): 自律運転システムは、知覚、計画、制御に不可欠な視覚的特徴を抽出することで達成される、環境の包括的な理解を必要とする。
しかしながら、単一タスクの目的や汎用データセットのみにトレーニングされたモデルは、複雑な駆動シナリオで堅牢なパフォーマンスに必要なコンテキスト情報を欠くことが多い。
本研究では,都市交通に不可欠な複数のコンピュータビジョンタスク(奥行き,ポーズ,3次元シーンフロー推定,セマンティック,パノプティクス,モーションセグメンテーションなど)を訓練した統一エンコーダを提案する。
これらの多様な視覚的手がかりと人間の知覚機構を統合することで、エンコーダはナビゲーション関連の予測を強化する豊富な特徴をキャプチャする。
我々は, ステアリング推定のモデルを下流タスクとして評価し, その密度の高い潜伏空間を活用する。
効率的なマルチタスク学習を実現するために,ポーズ推定のためのマルチスケール特徴ネットワークを導入し,マルチバックボーン教師モデルから知識蒸留を適用した。
その結果,(1) 統合エンコーダは,すべての視覚的認識タスク間での競合性能を達成し,強力な一般化能力を示すこと,(2) ステアリング推定のために,凍結された統合エンコーダを平均化することにより,その微細な調整された表現と,ImageNetのような汎用データセットで事前訓練された同じ凍結モデルの両方に優れることがわかった。
これらの結果は、タスク固有の視覚的特徴の重要性を浮き彫りにして、自律走行システムにおけるマルチタスク学習の可能性を実証している。
詳細と事前訓練済みのモデルはhttps://hi- computervision.github.io/uni-encoder/で確認できる。
関連論文リスト
- Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - YOLOP: You Only Look Once for Panoptic Driving Perception [21.802146960999394]
本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。
特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。
私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。
論文 参考訳(メタデータ) (2021-08-25T14:19:42Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Robot Perception enables Complex Navigation Behavior via Self-Supervised
Learning [23.54696982881734]
本稿では、強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクのためのロボット認識システムの統合手法を提案する。
提案手法は,1つの画像列から直接自己スーパービジョンを用いて得られる,コンパクトな動きと視覚知覚データを時間的に組み込む。
我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。
論文 参考訳(メタデータ) (2020-06-16T07:45:47Z) - End-to-end Autonomous Driving Perception with Sequential Latent
Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。
潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。
学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文 参考訳(メタデータ) (2020-03-21T05:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。