論文の概要: Vision Transformers for End-to-End Vision-Based Quadrotor Obstacle Avoidance
- arxiv url: http://arxiv.org/abs/2405.10391v2
- Date: Fri, 27 Sep 2024 20:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:58:45.972719
- Title: Vision Transformers for End-to-End Vision-Based Quadrotor Obstacle Avoidance
- Title(参考訳): エンド・ツー・エンドの視覚ベースクアドロレータ障害物回避のための視覚変換器
- Authors: Anish Bhattacharya, Nishanth Rao, Dhruv Parikh, Pratik Kunapuli, Yuwei Wu, Yuezhan Tao, Nikolai Matni, Vijay Kumar,
- Abstract要約: 高速な視覚に基づく四極子障害物回避のための注意に基づくエンドツーエンドアプローチの能力を実証する。
我々は、高忠実度シミュレーションにおいて、深度画像制御のための視覚変換器(ViT)モデルに対して畳み込み、U-Netおよび繰り返しアーキテクチャを訓練し、比較する。
- 参考スコア(独自算出の注目度): 13.467819526775472
- License:
- Abstract: We demonstrate the capabilities of an attention-based end-to-end approach for high-speed vision-based quadrotor obstacle avoidance in dense, cluttered environments, with comparison to various state-of-the-art learning architectures. Quadrotor unmanned aerial vehicles (UAVs) have tremendous maneuverability when flown fast; however, as flight speed increases, traditional model-based approaches to navigation via independent perception, mapping, planning, and control modules breaks down due to increased sensor noise, compounding errors, and increased processing latency. Thus, learning-based, end-to-end vision-to-control networks have shown to have great potential for online control of these fast robots through cluttered environments. We train and compare convolutional, U-Net, and recurrent architectures against vision transformer (ViT) models for depth image-to-control in high-fidelity simulation, observing that ViT models are more effective than others as quadrotor speeds increase and in generalization to unseen environments, while the addition of recurrence further improves performance while reducing quadrotor energy cost across all tested flight speeds. We assess performance at speeds of up to 7m/s in simulation and hardware. To the best of our knowledge, this is the first work to utilize vision transformers for end-to-end vision-based quadrotor control.
- Abstract(参考訳): 本研究では,高密度で散らばった環境下での高速な視覚に基づく四面体障害物回避のための,注目に基づくエンドツーエンドアプローチの能力を,最先端の学習アーキテクチャと比較して示す。
しかし、飛行速度が向上するにつれて、独立した知覚、マッピング、計画、制御モジュールによるナビゲーションに対する従来のモデルベースのアプローチは、センサーノイズの増加、複雑なエラー、処理遅延の増加によって崩壊する。
このように、学習に基づくエンドツーエンドのビジョン・ツー・コントロールネットワークは、散らかった環境を通じてこれらの高速ロボットをオンラインで制御する大きな可能性を示している。
高忠実度シミュレーションにおける深度画像制御のための視覚変換器(ViT)モデルに対して、畳み込み、U-Net、および繰り返しアーキテクチャを訓練・比較し、ViTモデルは他のモデルよりも効果的であることを示した。
シミュレーションとハードウェアで最大7m/sの性能を評価する。
我々の知る限りでは、これは視覚変換器をエンド・ツー・エンドの視覚ベースの四元数制御に活用する最初の試みである。
関連論文リスト
- Vision-based control for landing an aerial vehicle on a marine vessel [0.0]
本研究は,イメージベースビジュアルサーボ制御を用いた移動プラットフォーム上での航空機の着陸問題に対処する。
テクスチャ化された対象平面上の画像特徴を利用して、視覚に基づく制御法則を導出する。
提案法は、目標と移動プラットフォームの間の未知距離を推定することなく収束を保証する。
論文 参考訳(メタデータ) (2024-04-17T12:53:57Z) - FullLoRA-AT: Efficiently Boosting the Robustness of Pretrained Vision
Transformers [61.48709409150777]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
本稿では,学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRA-ATフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - Kinematically-Decoupled Impedance Control for Fast Object Visual
Servoing and Grasping on Quadruped Manipulators [18.279073092727025]
本稿では,分離アームキネマティックチェーンとインピーダンス制御に基づいて,オブジェクトのSAG(Searching, Approaching, Grasping)の制御パイプラインを提案する。
キネマティックデカップリングは、高速なエンドエフェクター運動と回復を可能にし、堅牢な視覚サーボに繋がる。
7-DoFマニピュレータアームを搭載した140kgのHyQReal四足歩行ロボットにおいて,提案手法の性能とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-07-10T21:51:06Z) - DADFNet: Dual Attention and Dual Frequency-Guided Dehazing Network for
Video-Empowered Intelligent Transportation [79.18450119567315]
逆の気象条件は、ビデオベースの交通監視に深刻な課題をもたらす。
本稿では,リアルタイム視認性向上のための2つの注意と2つの周波数誘導型脱ハージングネットワーク(DADFNet)を提案する。
論文 参考訳(メタデータ) (2023-04-19T11:55:30Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Evolved Neuromorphic Control for High Speed Divergence-based Landings of
MAVs [0.0]
小型航空機の着陸制御のためのスパイクニューラルネットワークを開発した。
得られたニューロモルフィックコントローラは,シミュレーションから実世界への堅牢な移動を示す。
私たちの知る限りでは、この研究は現実世界の飛行ロボットの制御ループにスパイクするニューラルネットワークを統合する最初のものである。
論文 参考訳(メタデータ) (2020-03-06T10:19:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。