論文の概要: DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops
- arxiv url: http://arxiv.org/abs/2603.00160v1
- Date: Wed, 25 Feb 2026 22:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.069842
- Title: DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops
- Title(参考訳): DINOv3、野菜作物の雑草検出にYOLO26を投入
- Authors: Boyang Deng, Yuzhen Lu,
- Abstract要約: 本研究では、不均一なデータセットを統合し、自己教師付き学習を活用することにより、根本的作物雑草検出モデルを提案する。
618,642個の作物雑草画像が最初に収集され、199,388個のフィルター画像に精製され、シーケンシャルなキュレーション戦略によってDINOv3視覚変換器(ViT-small)を微調整した。
提案されたDINOv3-finetuned ViT-small-based YOLO26-largeは2025年シーズンに収集されたドメイン内の画像に対して+5.4%のアップを達成した。
- 参考スコア(独自算出の注目度): 2.9975133169198247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing robust models for precision vegetable weeding is currently constrained by the scarcity of large-scale, annotated weed-crop datasets. To address this limitation, this study proposes a foundational crop-weed detection model by integrating heterogeneous datasets and leveraging self-supervised learning. A total of 618,642 crop-weed images were initially collected and subsequently refined to 199,388 filtered images for fine-tuning a DINOv3 vision transformer (ViT-small) through a sequential curation strategy. The fine-tuned DINOv3 backbone was then integrated into YOLO26, serving either as a primary backbone or part of a dual-backbone architecture. A feature alignment loss was introduced in the dual backbone framework to enhance feature fusion with minimal computational overhead. Experimental results show that the proposed DINOv3-finetuned ViT-small-based YOLO26-large achieved up to a +5.4% mAP50 gain on in-domain images collected in the 2025 season. Moreover, it demonstrated strong cross-domain generalization with mAP50 improvements of +14.0% on the 2021-2023 season dataset and +11.9% on the 2024 season dataset, compared to the standard YOLO26-large. Although the DINOv3-YOLO26-large model has 45.6% more parameters and a 2.9x increase in inference latency, it maintains real-time performance at ~28.5 frames per second (fps). The curated dataset and software programs developed in this study will be made publicly available.
- Abstract(参考訳): 野菜雑草の精密化のためのロバストなモデルの構築は、現在、大規模で注釈付き雑草群データセットの不足によって制限されている。
この制限に対処するために、異種データセットを統合し、自己教師付き学習を活用することにより、基礎的な作物雑草検出モデルを提案する。
618,642枚の雑草画像が最初に収集され、199,388枚のフィルター画像に精製され、シーケンシャルなキュレーション戦略によってDINOv3視覚変換器(ViT-small)を微調整した。
微調整されたDINOv3のバックボーンはYOLO26に統合され、プライマリバックボーンまたはデュアルバックボーンアーキテクチャの一部として機能した。
デュアルバックボーンフレームワークでは、最小計算オーバーヘッドで機能融合を強化するために、機能アライメント損失が導入された。
実験の結果、2025年シーズンに収集されたドメイン内の画像に対して、提案されたDINOv3-finetuned ViT-small-based YOLO26-largeは+5.4%まで上昇した。
さらに、2021-2023シーズンデータセットでは+14.0%、2024シーズンデータセットでは+11.9%、標準のYOLO26スケールに比べて、mAP50は+14.0%向上した。
DINOv3-YOLO26-largeモデルではパラメータが45.6%増加し、推論遅延が2.9倍増加したが、リアルタイムのパフォーマンスは毎秒28.5フレーム(fps)で維持されている。
本研究で開発されたキュレートデータセットとソフトウェアプログラムを一般公開する。
関連論文リスト
- DINO-YOLO: Self-Supervised Pre-training for Data-Efficient Object Detection in Civil Engineering Applications [0.0]
DINO-YOLOはデータ効率検出のためにYOLOv12とDINOv3を併用したハイブリッドアーキテクチャである。
DINOv3の機能は、入力前処理(P0)と中盤強化(P3)の2つの場所で戦略的に統合されている。
論文 参考訳(メタデータ) (2025-10-29T03:40:40Z) - A Comprehensive Evaluation of YOLO-based Deer Detection Performance on Edge Devices [6.486957474966142]
鹿の侵入による農業の経済的損失は、アメリカで毎年数億ドルに上っていると推定され、伝統的な緩和戦略の不適切さを浮き彫りにした。
このことは、リアルタイムの鹿検出と抑止能力を持つインテリジェントで自律的なソリューションに対する重要なニーズを浮き彫りにしている。
本研究では,シカ検出のための最先端深層学習モデルの総合的評価を行う。
論文 参考訳(メタデータ) (2025-09-24T17:01:50Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - RoBiS: Robust Binary Segmentation for High-Resolution Industrial Images [3.226330965024265]
現実シナリオにおける教師なし異常検出は重要な課題である。
現在の方法はMVTec AD 2ベンチマークで大幅に性能が低下している。
3つのコアモジュールからなる堅牢なフレームワークRoBiSを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:04:48Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition [2.3349135339114375]
YOWOv3はYOWOv2の改良版である。
YOWOv3 はパラメータや GFLOP の数を大幅に削減すると同時に、同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-05T16:48:03Z) - Predicting O-GlcNAcylation Sites in Mammalian Proteins with Transformers and RNNs Trained with a New Loss Function [0.0]
O-Glc Nacylationサイトを確実に予測する方法は、2023年まで利用できなかった。
本稿では、重み付き焦点微分可能MCCと呼ばれる新しい損失関数を用いて、改良されたモデルを作成する。
論文 参考訳(メタデータ) (2024-02-27T01:53:02Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - End-2-End COVID-19 Detection from Breath & Cough Audio [68.41471917650571]
クラウドソースのオーディオサンプルからエンドツーエンドのディープラーニングを使用してCOVID-19を診断する最初の試みを実証します。
本研究では, 人工深層ニューラルネットワークを用いて, 人工呼吸器から新型コロナを診断する新しいモデル戦略を提案する。
論文 参考訳(メタデータ) (2021-01-07T01:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。