論文の概要: Real-Time Branch-to-Tool Distance Estimation for Autonomous UAV Pruning: Benchmarking Five DEFOM-Stereo Variants from Simulation to Jetson Deployment
- arxiv url: http://arxiv.org/abs/2603.26250v1
- Date: Fri, 27 Mar 2026 10:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.441237
- Title: Real-Time Branch-to-Tool Distance Estimation for Autonomous UAV Pruning: Benchmarking Five DEFOM-Stereo Variants from Simulation to Jetson Deployment
- Title(参考訳): 自律型UAVプルーニングのための実時間ブランチツーツール距離推定:シミュレーションからジェットソン展開まで5つのDeFOMステレオ変数のベンチマーク
- Authors: Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green,
- Abstract要約: タスク固有の合成データセット上でDEFOM-Stereoの5つの変種をトレーニングし、NVIDIA Jetson Orin Super 16 GB上でチェックポイントをデプロイする。
トレーニングコーパスはUnreal Engine 5で構築され、シミュレーションされたZED Miniステレオカメラ5,520台のステレオペアが115本のツリーインスタンスに2mの距離で3つの視点から配置されている。
DeFOM-PrunePlusは車載距離推定に最も実用的な精度-レイテンシバランスを提供する。
- 参考スコア(独自算出の注目度): 5.266753902938501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous tree pruning with unmanned aerial vehicles (UAVs) is a safety-critical real-world task: the onboard perception system must estimate the metric distance from a cutting tool to thin tree branches in real time so that the UAV can approach, align, and actuate the pruner without collision. We address this problem by training five variants of DEFOM-Stereo - a recent foundation-model-based stereo matcher - on a task-specific synthetic dataset and deploying the checkpoints on an NVIDIA Jetson Orin Super 16 GB. The training corpus is built in Unreal Engine 5 with a simulated ZED Mini stereo camera capturing 5,520 stereo pairs across 115 tree instances from three viewpoints at 2m distance; dense EXR depth maps provide exact, spatially complete supervision for thin branches. On the synthetic test set, DEFOM-Stereo ViT-S achieves the best depth-domain accuracy (EPE 1.74 px, D1-all 5.81%, delta-1 95.90%, depth MAE 23.40 cm) but its Jetson inference speed of ~2.2 FPS (~450 ms per frame) remains too slow for responsive closed-loop tool control. A newly introduced balanced variant, DEFOM-PrunePlus (~21M backbone, ~3.3 FPS on Jetson), offers the best deployable accuracy-speed trade-off (EPE 5.87 px, depth MAE 64.26 cm, delta-1 87.59%): its frame rate is sufficient for real-time guidance and its depth accuracy supports safe branch approach planning at the 2m operating range. The lightweight DEFOM-PruneStereo (~6.9 FPS) and DEFOM-PruneNano (~8.5 FPS) run fast but sacrifice substantial accuracy (depth MAE > 57 cm), making estimates too unreliable for safe actuation. Zero-shot inference on real photographs confirms that full-capacity models preserve branch geometry, validating the sim-to-real transfer. We conclude that DEFOM-PrunePlus provides the most practical accuracy-latency balance for onboard distance estimation, while ViT-S serves as the reference for future hardware.
- Abstract(参考訳): 無人航空機(UAV)による自律的なツリープルーニングは、安全上重要な現実的なタスクである。UAVが衝突することなくプルーナーに接近し、調整し、作動できるように、車載認識システムは、切断ツールから細い木の枝までの距離をリアルタイムで推定する必要がある。
我々は、タスク固有の合成データセット上でDEFOM-Stereoの5つの変種をトレーニングし、NVIDIA Jetson Orin Super 16 GBにチェックポイントをデプロイすることで、この問題に対処する。
トレーニングコーパスはUnreal Engine 5で構築されており、シミュレーションされたZED Miniステレオカメラが115本の木のインスタンスに5,520個のステレオペアを2mの距離で3つの視点から撮影している。
合成試験セットでは、DEFOM-Stereo ViT-Sは最高深度ドメイン精度(EPE 1.74 px, D1-all 5.81%, delta-1 95.90%, depth MAE 23.40 cm)を達成するが、Jetson推論速度は ~2.2 FPS (~450 ms per frame) であり、応答性のあるクローズドループツール制御には遅すぎる。
DEFOM-PrunePlus (~21M バックボーン、~3.3 FPS on Jetson) は最適な展開可能な精度と速度のトレードオフ(EPE 5.87 px, depth MAE 64.26 cm, delta-1 87.59%)を提供する。
軽量のDEFOM-PruneStereo (~6.9 FPS) とDEFOM-PruneNano (~8.5 FPS) は高速に走行するが、かなりの精度(深度MaE > 57 cm)を犠牲にしており、安全作動には信頼性が低い。
実写真におけるゼロショット推論は、全容量モデルが分岐幾何学を保持し、sim-to-real転送を検証することを確認する。
DeFOM-PrunePlusは車載距離推定に最も実用的な精度-レイテンシバランスを提供するが、ViT-Sは将来のハードウェアの基準となる。
関連論文リスト
- $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation [72.9912717963138]
リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
論文 参考訳(メタデータ) (2026-03-17T10:50:36Z) - Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications [5.266753902938501]
本研究は,実木分岐画像上で10種類の深部ステレオマッチングネットワークを訓練し,テストするための最初の研究である。
1080Pと720PのZED Miniカメラから、Canterbury Tree Branchesデータセット -- 5,313のステレオペアを使用します。
10の方法は、ステップバイステップの洗練、3次元の畳み込み、エッジ対応の注意、軽量デザインをカバーしている。
論文 参考訳(メタデータ) (2026-02-23T12:12:43Z) - SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving [5.343552118560704]
SpaRC-ADは、計画指向の自律運転のためのクエリベースのエンドツーエンドカメラレーダ融合フレームワークである。
本手法は、複数の自律運転タスクにおいて、最先端のビジョンのみのベースラインよりも強力な改善を実現する。
論文 参考訳(メタデータ) (2025-08-14T12:02:41Z) - Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning [0.0]
本稿では,GPSを用いた屋内環境における自律ナビゲーションのための高度なAI駆動認識システムを提案する。
システムは、物体検出用YOLOv11、単眼深度推定用深度任意のV2、タイム・オブ・ライト(ToF)センサーと慣性測定ユニット(IMU)を備えたPCBを統合する。
室内テストベッドにおける実験結果は、平均平均精度(mAP50)が0.6、深さ推定平均絶対誤差(MAE)が7.2cm、エンドツーエンドのシステム遅延が1秒以下で達成された。
論文 参考訳(メタデータ) (2025-08-11T12:00:03Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion [54.46664104437454]
一段核融合を用いた効率的かつ正確なレーダ・カメラ深度推定モデルであるTacoDepthを提案する。
具体的には、グラフベースのRadar構造抽出器とピラミッドベースのRadar融合モジュールを設計する。
従来の最先端のアプローチと比較して、TacoDepthは深さ精度と処理速度を12.8%、91.8%改善している。
論文 参考訳(メタデータ) (2025-04-16T05:25:04Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Physical Attack on Monocular Depth Estimation with Optimal Adversarial
Patches [18.58673451901394]
我々は学習に基づく単眼深度推定(MDE)に対する攻撃を開発する。
我々は,攻撃のステルス性と有効性を,オブジェクト指向の対角設計,感度領域の局所化,自然スタイルのカモフラージュとバランスさせる。
実験結果から,本手法は,異なる対象オブジェクトやモデルに対して,ステルス性,有効,堅牢な逆パッチを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-07-11T08:59:09Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。