論文の概要: Surround-View Cameras based Holistic Visual Perception for Automated
Driving
- arxiv url: http://arxiv.org/abs/2206.05542v1
- Date: Sat, 11 Jun 2022 14:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:30:31.775837
- Title: Surround-View Cameras based Holistic Visual Perception for Automated
Driving
- Title(参考訳): サラウンドビューカメラを用いた自動運転のための総合視覚知覚
- Authors: Varun Ravi Kumar
- Abstract要約: 我々は,高い性能と低計算量を有する近接場認識アルゴリズムの開発に焦点をあてる。
コンピュータのこれらの能力は、自動運転車、拡張現実、アーキテクチャサーベイなど、さまざまな用途に欠かせない。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The formation of eyes led to the big bang of evolution. The dynamics changed
from a primitive organism waiting for the food to come into contact for eating
food being sought after by visual sensors. The human eye is one of the most
sophisticated developments of evolution, but it still has defects. Humans have
evolved a biological perception algorithm capable of driving cars, operating
machinery, piloting aircraft, and navigating ships over millions of years.
Automating these capabilities for computers is critical for various
applications, including self-driving cars, augmented reality, and architectural
surveying. Near-field visual perception in the context of self-driving cars can
perceive the environment in a range of $0-10$ meters and 360{\deg} coverage
around the vehicle. It is a critical decision-making component in the
development of safer automated driving. Recent advances in computer vision and
deep learning, in conjunction with high-quality sensors such as cameras and
LiDARs, have fueled mature visual perception solutions. Until now, far-field
perception has been the primary focus. Another significant issue is the limited
processing power available for developing real-time applications. Because of
this bottleneck, there is frequently a trade-off between performance and
run-time efficiency. We concentrate on the following issues in order to address
them: 1) Developing near-field perception algorithms with high performance and
low computational complexity for various visual perception tasks such as
geometric and semantic tasks using convolutional neural networks. 2) Using
Multi-Task Learning to overcome computational bottlenecks by sharing initial
convolutional layers between tasks and developing optimization strategies that
balance tasks.
- Abstract(参考訳): 目の形成は進化の大きなバングにつながった。
ダイナミックスは、視覚センサーが求める食べ物を食べるために食べ物が接触するのを待っている原始生物から変化した。
人間の目は進化の最も洗練された発展の1つだが、まだ欠陥がある。
人間は、自動車を運転し、機械を操作し、航空機を操縦し、数百万年にわたって船を航行する生物学的認識アルゴリズムを進化させてきた。
これらの機能をコンピュータで自動化することは、自動運転車、拡張現実、建築調査など、さまざまなアプリケーションにとって非常に重要である。
自動運転車の文脈における近接場視覚知覚は、車両周辺の0-10$mと360{\deg}範囲の環境を知覚することができる。
より安全な自動運転の開発において重要な意思決定要素である。
コンピュータビジョンとディープラーニングの最近の進歩は、カメラやLiDARのような高品質なセンサーとともに、成熟した視覚知覚ソリューションに拍車をかけた。
これまでは、遠距離知覚が主眼だった。
もうひとつの重要な問題は、リアルタイムアプリケーションの開発に利用可能な処理能力の制限である。
このボトルネックのため、パフォーマンスと実行時の効率の間にはトレードオフがしばしば発生する。
私たちは、それらに対処するために、以下の問題に集中します。
1)畳み込みニューラルネットワークを用いた幾何学的・意味的タスクなどの視覚的タスクに対する,高性能・低計算量な近接場認識アルゴリズムの開発。
2)タスク間の初期畳み込みレイヤを共有し,タスクのバランスをとる最適化戦略を開発することで,マルチタスク学習を用いて計算ボトルネックを克服する。
関連論文リスト
- Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスクを訓練した共有エンコーダを提案する。
ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。
その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - Improving automatic detection of driver fatigue and distraction using
machine learning [0.0]
運転者の疲労と注意をそらした運転は交通事故の重要な要因である。
本稿では,視覚に基づくアプローチと機械学習に基づくアプローチを用いて,疲労と注意をそらした運転行動の同時検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-04T06:33:46Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - An Embarrassingly Pragmatic Introduction to Vision-based Autonomous
Robots [0.0]
視覚情報のみを用いてシーンを理解できる小型の自律走行車を開発した。
我々は、ロボットと自動運転の現在の状況と、この分野で見られる技術的、倫理的制約について論じる。
論文 参考訳(メタデータ) (2021-11-15T01:31:28Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Computer Stereo Vision for Autonomous Driving [31.517828028200682]
コンピュータステレオビジョンは、深度知覚のために自律走行車に広く応用されている。
本章では,自律走行車システムにおけるコンピュータステレオビジョンのハードウェア面とソフトウェア面について紹介する。
論文 参考訳(メタデータ) (2020-12-06T06:54:03Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - End-to-end Autonomous Driving Perception with Sequential Latent
Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。
潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。
学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文 参考訳(メタデータ) (2020-03-21T05:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。