論文の概要: RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour
- arxiv url: http://arxiv.org/abs/2503.02572v1
- Date: Tue, 04 Mar 2025 12:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:50.982328
- Title: RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour
- Title(参考訳): RaceVLA:人間のような振る舞いを持つVLAベースのレースドローンナビゲーション
- Authors: Valerii Serpiva, Artem Lykov, Artyom Myshlyaev, Muhammad Haris Khan, Ali Alridha Abdulkarim, Oleg Sautenkov, Dzmitry Tsetserukou,
- Abstract要約: 本研究では、リアルタイム環境フィードバックに基づいて、ドローンがナビゲーション戦略に適応できる高度なアルゴリズムの統合について検討する。
このモデルは、収集されたレース用ドローンデータセットに基づいて微調整され、ドローンのレース環境が複雑であるにもかかわらず、強力な一般化を示している。
実験では、平均速度1.04m/s、最大速度2.02m/s、一貫した操縦性を示し、高速シナリオを効果的に処理できるRaceVLAの能力を示した。
- 参考スコア(独自算出の注目度): 7.961805218635069
- License:
- Abstract: RaceVLA presents an innovative approach for autonomous racing drone navigation by leveraging Visual-Language-Action (VLA) to emulate human-like behavior. This research explores the integration of advanced algorithms that enable drones to adapt their navigation strategies based on real-time environmental feedback, mimicking the decision-making processes of human pilots. The model, fine-tuned on a collected racing drone dataset, demonstrates strong generalization despite the complexity of drone racing environments. RaceVLA outperforms OpenVLA in motion (75.0 vs 60.0) and semantic generalization (45.5 vs 36.3), benefiting from the dynamic camera and simplified motion tasks. However, visual (79.6 vs 87.0) and physical (50.0 vs 76.7) generalization were slightly reduced due to the challenges of maneuvering in dynamic environments with varying object sizes. RaceVLA also outperforms RT-2 across all axes - visual (79.6 vs 52.0), motion (75.0 vs 55.0), physical (50.0 vs 26.7), and semantic (45.5 vs 38.8), demonstrating its robustness for real-time adjustments in complex environments. Experiments revealed an average velocity of 1.04 m/s, with a maximum speed of 2.02 m/s, and consistent maneuverability, demonstrating RaceVLA's ability to handle high-speed scenarios effectively. These findings highlight the potential of RaceVLA for high-performance navigation in competitive racing contexts. The RaceVLA codebase, pretrained weights, and dataset are available at this http URL: https://racevla.github.io/
- Abstract(参考訳): RaceVLAは、VLA(Visual-Language-Action)を利用して人間の動作をエミュレートすることで、自律走行ドローンナビゲーションに革新的なアプローチを提案する。
本研究では,人間パイロットの意思決定過程を模倣して,リアルタイムな環境フィードバックに基づいて,ドローンによるナビゲーション戦略の適応を可能にする,高度なアルゴリズムの統合について検討する。
このモデルは、収集されたレース用ドローンデータセットに基づいて微調整され、ドローンのレース環境が複雑であるにもかかわらず、強力な一般化を示している。
RaceVLAはOpenVLAの動作性能(75.0対60.0)とセマンティック一般化(45.5対36.3)に優れ、ダイナミックカメラと簡易なモーションタスクの恩恵を受けている。
しかし、視覚的(79.6 vs 87.0)と物理的(50.0 vs 76.7)の一般化は、様々な物体サイズを持つ動的環境での操作の難しさにより、わずかに減少した。
RaceVLAはまた、視覚的(79.6対52.0)、動き(75.0対55.0)、物理的(50.0対26.7)、意味(45.5対38.8)、複雑な環境におけるリアルタイム調整の堅牢性を示すRT-2よりも優れている。
実験では、平均速度1.04m/s、最大速度2.02m/s、一貫した操縦性を示し、高速シナリオを効果的に処理できるRaceVLAの能力を示した。
これらの結果は、競合するレース環境での高性能ナビゲーションにおけるRaceVLAの可能性を強調している。
RaceVLAのコードベース、事前トレーニングされたウェイト、データセットは、このhttpURLで利用できる。
関連論文リスト
- SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum [8.410894757762346]
エンドツーエンドの視覚ドローンナビゲーションのための新しいシミュレータ,トレーニングアプローチ,およびポリシーアーキテクチャ,いわゆるSOUS VIDEを提案する。
我々のシミュレータFiGSは、計算学的にシンプルなドローン動力学モデルと高忠実度ガウススプラッティングシーンの再構成を結合する。
SOUS VIDEのポリシーは、30%の質量変化、40m/sの風洞、周囲の明るさの60%の変化、シーンからのオブジェクトのシフトや削除、ドローンの視野を積極的に移動する人々に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-12-20T21:13:11Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - er.autopilot 1.0: The Full Autonomous Stack for Oval Racing at High
Speeds [61.91756903900903]
インディ・オートノラティカル・チャレンジ (IAC) は、オープンホイールのレースカー上で独立して開発されたソフトウェアを使用して、前例のないスピードとヘッド・ツー・ヘッドのシナリオで競う9つの自律レースチームを集めた。
本稿では,チームTII EuroRacing (TII-ER) が使用するソフトウェアアーキテクチャについて述べる。静的障害物を避け,アクティブオーバーテイクを行い,75m/s (270 km/h) 以上の速度に達するために必要なモジュールをすべて網羅する。
総合的な結果と各モジュールのパフォーマンス、および、チームがそれぞれ2番目と3番目を置く楕円軌道上の競技の最初の2つのイベントで学んだ教訓について説明する。
論文 参考訳(メタデータ) (2023-10-27T12:52:34Z) - Motion Planning and Control for Multi Vehicle Autonomous Racing at High
Speeds [100.61456258283245]
本稿では,自律走行のための多層移動計画と制御アーキテクチャを提案する。
提案手法はダララのAV-21レースカーに適用され、楕円形のレーストラックで25$m/s2$まで加速試験された。
論文 参考訳(メタデータ) (2022-07-22T15:16:54Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - VariabilityTrack:Multi-Object Tracking with Variable Speed Object
Movement [1.6385815610837167]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
環境フィードバックに基づく可変速度カルマンフィルタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-12T12:39:41Z) - Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文 参考訳(メタデータ) (2020-11-07T16:49:04Z) - DeepRacing: Parameterized Trajectories for Autonomous Racing [0.0]
現実的なF1環境での高速自律レースの課題を考察する。
DeepRacingは、新しいエンドツーエンドフレームワークであり、自律レースのためのアルゴリズムのトレーニングと評価のための仮想テストベッドである。
この仮想テストベッドは、スタンドアロンのC++ APIと人気のあるRobot Operating System 2 (ROS2)フレームワークへのバインディングの両方として、オープンソースライセンスでリリースされている。
論文 参考訳(メタデータ) (2020-05-06T21:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。