Fugu-MT 論文翻訳(概要): Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation

論文の概要: Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation

arxiv url: http://arxiv.org/abs/2604.02779v1
Date: Fri, 03 Apr 2026 06:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.355463
Title: Vision-Based End-to-End Learning for UAV Traversal of Irregular Gaps via Differentiable Simulation
Title（参考訳）: 微分可能シミュレーションによる不規則ギャップのUAVトラバーサルの視覚に基づくエンド・ツー・エンド学習
Authors: Linzuo Zhang, Yu Hu, Feng Yu, Yang Deng, Wenxian Yu, Danping Zou,
Abstract要約: 我々は、奥行き画像を直接制御コマンドにマッピングし、無人機が見えない環境で複雑な隙間を横切ることを可能にする、視覚ベースのエンドツーエンドフレームワークを提案する。
参考スコア（独自算出の注目度）: 28.87894291154063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: -Navigation through narrow and irregular gaps is an essential skill in autonomous drones for applications such as inspection, search-and-rescue, and disaster response. However, traditional planning and control methods rely on explicit gap extraction and measurement, while recent end-to-end approaches often assume regularly shaped gaps, leading to poor generalization and limited practicality. In this work, we present a fully vision-based, end-to-end framework that maps depth images directly to control commands, enabling drones to traverse complex gaps within unseen environments. Operating in the Special Euclidean group SE(3), where position and orientation are tightly coupled, the framework leverages differentiable simulation, a Stop-Gradient operator, and a Bimodal Initialization Distribution to achieve stable traversal through consecutive gaps. Two auxiliary prediction modules-a gap-crossing success classifier and a traversability predictor-further enhance continuous navigation and safety. Extensive simulation and real-world experiments demonstrate the approach's effectiveness, generalization capability, and practical robustness.
Abstract（参考訳）: -点検・捜索・救助・災害対応など、自律ドローンにとって、狭く不規則なギャップを通り抜けることが必須のスキルである。しかし、従来の計画と制御手法は明示的なギャップ抽出と測定に依存しているが、近年のエンドツーエンドの手法ではしばしば周期的なギャップを前提としており、一般化の貧弱さと限られた実用性をもたらす。本研究では、奥行き画像を直接制御コマンドにマッピングし、無人機が見えない環境で複雑な隙間を横切ることを可能にする、完全な視覚ベースのエンドツーエンドフレームワークを提案する。位置と向きが密結合された特殊ユークリッド群SE(3)で運用されているこのフレームワークは、微分可能シミュレーション、ストップ・グラディエント演算子、およびバイモーダル初期化分布を活用して、連続的なギャップを通じて安定なトラバースを達成する。 2つの補助予測モジュール-ギャップクロス成功分類器とトラバーサビリティ予測器-は、継続的なナビゲーションと安全性を高める。大規模なシミュレーションと実世界の実験は、アプローチの有効性、一般化能力、実用的堅牢性を示す。

関連論文リスト

Decentralized End-to-End Multi-AAV Pursuit Using Predictive Spatio-Temporal Observation via Deep Reinforcement Learning [5.002036203828793]
乱雑な環境における分散的協調的追跡は、自律的な空中群れにとって困難である。本稿では,LDARの生観測を直接連続制御コマンドにマッピングする分散エンドツーエンドのマルチエージェント強化学習フレームワークを提案する。単一の分散ポリシにより、エージェントは静的障害をナビゲートし、動的ターゲットをインターセプトし、協調的な囲いを維持することができる。
論文参考訳（メタデータ） (2026-03-25T12:23:35Z)
ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文参考訳（メタデータ） (2025-12-28T14:06:37Z)
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文参考訳（メタデータ） (2025-09-24T13:35:15Z)
Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation [20.106116218594266]
DIVERは、強化学習と拡散ベースの生成を統合するエンドツーエンドの自動運転フレームワークである。また,DIVERは軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処することを示した。
論文参考訳（メタデータ） (2025-07-05T14:19:19Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Navigation [41.334731014665316]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存の作業のほとんどは、離散的または連続的な環境に焦点を当てている。ナビゲーション中に候補となるウェイポイントの集合を生成するための予測器を提案する。予測された経路点を持つ連続環境を航行するエージェントは,低レベル動作を使用するエージェントよりも有意に優れた性能を示す。
論文参考訳（メタデータ） (2022-03-05T14:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。