論文の概要: Generalization Evaluation of Deep Stereo Matching Methods for UAV-Based Forestry Applications
- arxiv url: http://arxiv.org/abs/2512.03427v1
- Date: Wed, 03 Dec 2025 04:14:08 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:57:59.909996
- Title: Generalization Evaluation of Deep Stereo Matching Methods for UAV-Based Forestry Applications
- Title(参考訳): UAVに基づく森林応用のための深部ステレオマッチング法の一般化評価
- Authors: Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green,
- Abstract要約: Stereo, IGEV, IGEV, BridgeDepth, StereoAnywhere, DEFOM。
すべてのメソッドはFlow Sceneに特化してトレーニングされ、4つの標準ベンチマークを微調整することなく評価される。
- 参考スコア(独自算出の注目度): 5.266753902938501
- License:
- Abstract: Autonomous UAV forestry operations require robust depth estimation methods with strong cross-domain generalization. However, existing evaluations focus on urban and indoor scenarios, leaving a critical gap for specialized vegetation-dense environments. We present the first systematic zero-shot evaluation of eight state-of-the-art stereo methods--RAFT-Stereo, IGEV, IGEV++, BridgeDepth, StereoAnywhere, DEFOM (plus baseline methods ACVNet, PSMNet, TCstereo)--spanning iterative refinement, foundation model, and zero-shot adaptation paradigms. All methods are trained exclusively on Scene Flow and evaluated without fine-tuning on four standard benchmarks (ETH3D, KITTI 2012/2015, Middlebury) plus a novel 5,313-pair Canterbury forestry dataset captured with ZED Mini camera (1920x1080). Performance reveals scene-dependent patterns: foundation models excel on structured scenes (BridgeDepth: 0.23 px on ETH3D, 0.83-1.07 px on KITTI; DEFOM: 0.35-4.65 px across benchmarks), while iterative methods maintain cross-domain robustness (IGEV++: 0.36-6.77 px; IGEV: 0.33-21.91 px). Critical finding: RAFT-Stereo exhibits catastrophic ETH3D failure (26.23 px EPE, 98 percent error rate) due to negative disparity predictions, while performing normally on KITTI (0.90-1.11 px). Qualitative evaluation on Canterbury forestry dataset identifies DEFOM as the optimal gold-standard baseline for vegetation depth estimation, exhibiting superior depth smoothness, occlusion handling, and cross-domain consistency compared to IGEV++, despite IGEV++'s finer detail preservation.
- Abstract(参考訳): 自律型UAV林業は、強いクロスドメインの一般化を伴う堅牢な深さ推定方法を必要とする。
しかし、既存の評価は都市や屋内のシナリオに重点を置いており、特定の植生密度環境にとって重要なギャップを残している。
ACVNet, PSMNet, TCstereoの8つのステレオメソッド-RAFT-Stereo, IGEV, IGEV++, BridgeDepth, StereoAnywhere, DEFOM (+ baseline method ACVNet, PSMNet, TCstereo)-の体系的ゼロショット評価を行い, 反復的洗練, 基礎モデル, ゼロショット適応パラダイムについて述べる。
すべての手法はScene Flowに特化してトレーニングされており、4つの標準ベンチマーク(ETH3D、KITTI 2012/2015、ミドルベリー)と、ZED Miniカメラ(1920x1080)でキャプチャされた新しい5,313対のカンタベリー林業データセット(英語版)で微調整することなく評価されている。
ファンデーションモデルは、構造化されたシーンで排他的(ブリッジDepth: 0.23 px on ETH3D, 0.83-1.07 px on KITTI, DEFOM: 0.35-4.65 px across benchmarks)であるのに対し、反復的手法は、ドメイン間の堅牢性を維持する(IGEV++: 0.36-6.77 px; IGEV: 0.33-21.91 px; IGEV: 0.33-21.91 px)。
決定的発見:RAFT-Stereoは負の差の予測により破滅性ETH3D障害(26.23 px EPE, 98%エラー率)を示し、KITTI(0.90-1.11 px)で正常に実行する。
カンタベリー林業データセットの質的評価では、IGEV++の細部保存にもかかわらず、DeFOMを植生深度推定のための最適な金標準基準基準線として識別し、IGEV++よりも優れた深さの滑らかさ、閉塞処理、およびドメイン間の整合性を示す。
関連論文リスト
- Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - DFCon: Attention-Driven Supervised Contrastive Learning for Robust Deepfake Detection [0.3818645814949463]
本報告では, IEEE SP Cup 2025: Deepfake Face Detection in the Wild (DFWild-Cup) へのアプローチについて述べる。
提案手法では,MaxViT,CoAtNet,EVA-02などの高度なバックボーンモデルを用いて,教師付きコントラスト損失を用いて微調整を行い,特徴分離を向上させる。
提案システムは,実環境下でのディープフェイク検出の課題に対処し,検証データセットで95.83%の精度を実現する。
論文 参考訳(メタデータ) (2025-01-28T04:46:50Z) - SR-Stereo & DAPE: Stepwise Regression and Pre-trained Edges for Practical Stereo Matching [2.8908326904081334]
ドメインの相違を克服する新しい段階的回帰アーキテクチャを提案する。
疎基底真理で新しいドメインを適応するモデルのエッジ認識を高めるために,事前学習エッジ(DAPE)に基づくドメイン適応を提案する。
提案したSR-StereoとDAPEは,SceneFlow,KITTI,Middbury 2014,ETH3Dで広く評価されている。
論文 参考訳(メタデータ) (2024-06-11T05:25:25Z) - Learning to utilize image second-order derivative information for crisp edge detection [16.152236524867078]
エッジ検出はコンピュータビジョンの基本課題である。
最近のトップパフォーマンスエッジ検出手法は、厚くノイズの多いエッジラインを生成する傾向にある。
本稿では,モデルが真のエッジピクセルを正確に検出するのに役立つ2階微分型マルチスケールコンテキスト拡張モジュール(SDMCM)を提案する。
また、不均衡分布問題を軽減するために、ハイブリッド焦点損失関数(HFL)を構築した。
最後に、エッジ検出のためのSDMCMとBRMに基づくLUS-NetというU字型ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-09T13:25:02Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。