Fugu-MT 論文翻訳(概要): Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

論文の概要: Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

arxiv url: http://arxiv.org/abs/2602.19763v1
Date: Mon, 23 Feb 2026 12:12:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.802607
Title: Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications
Title（参考訳）: 樹木枝画像を用いた深部ステレオマッチングネットワークの訓練:リアルタイムUAV林業応用のためのベンチマーク研究
Authors: Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green,
Abstract要約: 本研究は,実木分岐画像上で10種類の深部ステレオマッチングネットワークを訓練し,テストするための最初の研究である。 1080Pと720PのZED Miniカメラから、Canterbury Tree Branchesデータセット -- 5,313のステレオペアを使用します。 10の方法は、ステップバイステップの洗練、3次元の畳み込み、エッジ対応の注意、軽量デザインをカバーしている。
参考スコア（独自算出の注目度）: 5.266753902938501
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous drone-based tree pruning needs accurate, real-time depth estimation from stereo cameras. Depth is computed from disparity maps using $Z = f B/d$, so even small disparity errors cause noticeable depth mistakes at working distances. Building on our earlier work that identified DEFOM-Stereo as the best reference disparity generator for vegetation scenes, we present the first study to train and test ten deep stereo matching networks on real tree branch images. We use the Canterbury Tree Branches dataset -- 5,313 stereo pairs from a ZED Mini camera at 1080P and 720P -- with DEFOM-generated disparity maps as training targets. The ten methods cover step-by-step refinement, 3D convolution, edge-aware attention, and lightweight designs. Using perceptual metrics (SSIM, LPIPS, ViTScore) and structural metrics (SIFT/ORB feature matching), we find that BANet-3D produces the best overall quality (SSIM = 0.883, LPIPS = 0.157), while RAFT-Stereo scores highest on scene-level understanding (ViTScore = 0.799). Testing on an NVIDIA Jetson Orin Super (16 GB, independently powered) mounted on our drone shows that AnyNet reaches 6.99 FPS at 1080P -- the only near-real-time option -- while BANet-2D gives the best quality-speed balance at 1.21 FPS. We also compare 720P and 1080P processing times to guide resolution choices for forestry drone systems.
Abstract（参考訳）: 自律型ドローンによる木の刈り取りには、ステレオカメラから正確な、リアルタイムの深さ推定が必要である。深さは、Z = f B/d$ を用いて不均等写像から計算されるので、小さな不均等誤差でさえ、作業距離において顕著な深度誤差を引き起こす。 DEFOM-Stereoを植生シーンの最良の参照不均質発生源として同定した初期の研究に基づいて、実際の木の枝のイメージ上で10の深いステレオマッチングネットワークを訓練し、テストする最初の研究を示す。私たちはCanterbury Tree Branchesデータセット(1080Pと720PのZED Miniカメラから5,313のステレオペア)を使っています。 10の手法はステップバイステップの改良、3Dコンボリューション、エッジアウェアの注意、軽量デザインをカバーしている。知覚メトリクス(SSIM, LPIPS, ViTScore)とSIFT/ORB特徴マッチング(SIFT/ORB特徴マッチング)を用いて, BANet-3Dが最高の全体的な品質(SSIM = 0.883, LPIPS = 0.157), RAFT-Stereoはシーンレベルの理解(ViTScore = 0.799)が最も高いスコアであることがわかった。 NVIDIA Jetson Orin Super(16GB、独立電源)でテストしたところ、AnyNetは1080Pで6.99 FPSに達した。また、720Pと1080Pの処理時間を比較して、森林ドローンシステムの解像度選択をガイドする。

関連論文リスト

Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。 SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文参考訳（メタデータ） (2025-07-01T20:41:05Z)
DepthVanish: Optimizing Adversarial Interval Structures for Stereo-Depth-Invisible Patches [52.797945735414665]
ステレオ深度推定に対する敵攻撃は、デプロイ前に脆弱性を明らかにするのに役立つ。本研究では,繰り返しテクスチャ間の定期的な間隔を導入し,グリッド構造を構築し,パッチの攻撃性能を著しく向上させる。生成した対向パッチは任意のシーンに挿入でき、高度なステレオ深度推定手法をうまく攻撃することができる。
論文参考訳（メタデータ） (2025-06-20T02:22:21Z)
FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution [50.55876151973996]
ビデオ深度推定モデルは,(1)フレーム間の精度,(2)高解像度深度マップの作成,(3)リアルタイムストリーミングをサポートする。提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。我々は、最先端の深度モデルに対する複数の未知のデータセットに対するアプローチを評価し、競争精度を維持しながら、境界のシャープネスと速度の点でそれらを上回ります。
論文参考訳（メタデータ） (2025-04-09T17:59:31Z)
CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception [20.824179713013734]
カメラレーダ融合フレームワークであるカメラレーダネット(CRN)を提案する。 CRNは、様々なタスクに対して意味的にリッチで空間的に正確な鳥眼視(BEV)特徴マップを生成する。リアルタイム設定のCRNは20FPSで動作し、nuScenes上のLiDAR検出器に匹敵する性能を実現している。
論文参考訳（メタデータ） (2023-04-03T00:47:37Z)
TransVisDrone: Spatio-Temporal Transformer for Vision-based Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文参考訳（メタデータ） (2022-10-16T03:05:13Z)
Real-time dense 3D Reconstruction from monocular video data captured by low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文参考訳（メタデータ） (2021-04-21T13:12:17Z)
CoordiNet: uncertainty-aware pose regressor for reliable vehicle localization [3.4386226615580107]
ロボット工学および自動運転車応用のためのニューラルネットワークを用いた視覚カメラのローカライゼーションについて検討する。私たちのソリューションは、単一の画像から直接カメラポーズを予測するCNNベースのアルゴリズムです。提案手法は,29cmの中央値誤差を1.9kmループで達成し,信頼性の高い代替案であることを示す。
論文参考訳（メタデータ） (2021-03-19T13:32:40Z)
ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。 ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文参考訳（メタデータ） (2020-03-01T17:18:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。