Fugu-MT 論文翻訳(概要): Vision-based Learning for Drones: A Survey

論文の概要: Vision-based Learning for Drones: A Survey

arxiv url: http://arxiv.org/abs/2312.05019v2
Date: Tue, 2 Jan 2024 06:13:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 19:27:01.971593
Title: Vision-based Learning for Drones: A Survey
Title（参考訳）: ドローンの視覚に基づく学習 : 調査
Authors: Jiaping Xiao, Rangya Zhang, Yuhang Zhang, and Mir Feroskhan
Abstract要約: 先進的なサイバー物理システムとしてのドローンは、視覚ベースの学習の出現とともに、変貌を遂げている。このレビューでは、ドローンにおける視覚に基づく学習の包括的概要を提供し、その運用能力の向上における重要な役割を強調している。我々は、単一エージェントシステムからより複雑なマルチエージェントおよび異種システムシナリオまで、学習機能を備えた視覚ベースのドローンの様々な応用について検討する。
参考スコア（独自算出の注目度）: 1.280979348722635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Drones as advanced cyber-physical systems are undergoing a transformative shift with the advent of vision-based learning, a field that is rapidly gaining prominence due to its profound impact on drone autonomy and functionality. Different from existing task-specific surveys, this review offers a comprehensive overview of vision-based learning in drones, emphasizing its pivotal role in enhancing their operational capabilities under various scenarios. We start by elucidating the fundamental principles of vision-based learning, highlighting how it significantly improves drones' visual perception and decision-making processes. We then categorize vision-based control methods into indirect, semi-direct, and end-to-end approaches from the perception-control perspective. We further explore various applications of vision-based drones with learning capabilities, ranging from single-agent systems to more complex multi-agent and heterogeneous system scenarios, and underscore the challenges and innovations characterizing each area. Finally, we explore open questions and potential solutions, paving the way for ongoing research and development in this dynamic and rapidly evolving field. With growing large language models (LLMs) and embodied intelligence, vision-based learning for drones provides a promising but challenging road towards artificial general intelligence (AGI) in 3D physical world.
Abstract（参考訳）: 高度なサイバーフィジカルシステムとしてのドローンは、ドローンの自律性と機能に大きな影響を与え、急速に注目を集めているビジョンベースの学習の出現によって、変革的な変化を遂げている。これまでのタスク固有の調査とは違って、このレビューはドローンにおけるビジョンベースの学習の包括的な概要を提供し、様々なシナリオにおける運用能力の強化において重要な役割を強調する。まず、視覚に基づく学習の基本原則を解明し、ドローンの視覚的認識と意思決定プロセスを大幅に改善する方法を強調します。次に,視覚に基づく制御手法を,知覚制御の観点から間接的,半間接的,終末的なアプローチに分類する。単一エージェントシステムからより複雑なマルチエージェントおよびヘテロジニアスシステムシナリオまで,学習能力を備えた視覚ベースのドローンのさまざまな応用について検討し,各領域を特徴付ける課題とイノベーションを強調する。最後に、オープン質問と潜在的な解決策を探求し、この動的かつ急速に進化する分野における継続的な研究と開発への道を開く。大型言語モデル(LLM)とインボディードインテリジェンス(インテリジェンス)の増大により、ドローンの視覚に基づく学習は、3D物理世界の人工知能(AGI)への有望だが挑戦的な道のりを提供する。

関連論文リスト

Challenges and Trends in Egocentric Vision: A Survey [11.593894126370724]
エゴセントリックな視覚は、人間の体に装着されたカメラやセンサーを通して、視覚的およびマルチモーダルなデータをキャプチャする。本稿では,自我中心の視覚理解に関する研究を包括的に調査する。最新の進歩を要約することで、拡張現実、バーチャルリアリティ、エンボディドインテリジェンスといった分野において、エゴセントリックなビジョン技術の幅広い応用が期待できる。
論文参考訳（メタデータ） (2025-03-19T14:51:27Z)
A Comprehensive Review of 3D Object Detection in Autonomous Driving: Technological Advances and Future Directions [11.071271817366739]
3次元物体認識は、自律運転システムの開発において重要な要素となっている。本稿では,カメラベース,LiDARベース,核融合検出技術を中心に,従来の3次元物体検出手法を概説する。本稿では、時間知覚、占有グリッド、エンドツーエンド学習フレームワークなどの精度向上手法を含む今後の方向性について論じる。
論文参考訳（メタデータ） (2024-08-28T01:08:33Z)
A Survey of Embodied Learning for Object-Centric Robotic Manipulation [27.569063968870868]
オブジェクト中心のロボット操作のための身体学習は、AIの急速に発展し、挑戦的な分野である。データ駆動機械学習とは異なり、具体化学習は環境との物理的相互作用を通じてロボット学習に焦点を当てる。
論文参考訳（メタデータ） (2024-08-21T11:32:09Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。 VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文参考訳（メタデータ） (2024-02-04T07:55:01Z)
Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文参考訳（メタデータ） (2022-10-26T19:03:17Z)
Deep Learning for Omnidirectional Vision: A Survey and New Perspectives [7.068031114801553]
本稿では,全方向視覚のためのディープラーニング手法の最近の進歩について,体系的かつ包括的なレビューと分析を行う。 i)全方位画像の原理,ODI上の畳み込み手法,およびデータセットの導入により,2次元平面画像データとの違いと難易度を明らかにすること,(ii)全方位視覚のためのDL手法の構造的・階層的分類,(iii)最新の学習戦略と応用の要約である。
論文参考訳（メタデータ） (2022-05-21T00:19:56Z)
The State of Aerial Surveillance: A Survey [62.198765910573556]
本稿では、コンピュータビジョンとパターン認識の観点から、人間中心の空中監視タスクの概要を概観する。主な対象は、単体または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される人間である。
論文参考訳（メタデータ） (2022-01-09T20:13:27Z)
Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文参考訳（メタデータ） (2021-07-07T12:09:04Z)
ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文参考訳（メタデータ） (2020-12-17T18:22:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。