論文の概要: DINO-YOLO: Self-Supervised Pre-training for Data-Efficient Object Detection in Civil Engineering Applications
- arxiv url: http://arxiv.org/abs/2510.25140v1
- Date: Wed, 29 Oct 2025 03:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.002877
- Title: DINO-YOLO: Self-Supervised Pre-training for Data-Efficient Object Detection in Civil Engineering Applications
- Title(参考訳): DINO-YOLO:土木分野におけるデータ効率の良い物体検出のための自己監督型事前学習
- Authors: Malaisree P, Youwai S, Kitkobsin T, Janrungautai S, Amorndechaphon D, Rojanavasu P,
- Abstract要約: DINO-YOLOはデータ効率検出のためにYOLOv12とDINOv3を併用したハイブリッドアーキテクチャである。
DINOv3の機能は、入力前処理(P0)と中盤強化(P3)の2つの場所で戦略的に統合されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection in civil engineering applications is constrained by limited annotated data in specialized domains. We introduce DINO-YOLO, a hybrid architecture combining YOLOv12 with DINOv3 self-supervised vision transformers for data-efficient detection. DINOv3 features are strategically integrated at two locations: input preprocessing (P0) and mid-backbone enhancement (P3). Experimental validation demonstrates substantial improvements: Tunnel Segment Crack detection (648 images) achieves 12.4% improvement, Construction PPE (1K images) gains 13.7%, and KITTI (7K images) shows 88.6% improvement, while maintaining real-time inference (30-47 FPS). Systematic ablation across five YOLO scales and nine DINOv3 variants reveals that Medium-scale architectures achieve optimal performance with DualP0P3 integration (55.77% mAP@0.5), while Small-scale requires Triple Integration (53.63%). The 2-4x inference overhead (21-33ms versus 8-16ms baseline) remains acceptable for field deployment on NVIDIA RTX 5090. DINO-YOLO establishes state-of-the-art performance for civil engineering datasets (<10K images) while preserving computational efficiency, providing practical solutions for construction safety monitoring and infrastructure inspection in data-constrained environments.
- Abstract(参考訳): 土木工学の応用におけるオブジェクト検出は、特定の領域における限られた注釈付きデータによって制約される。
データ効率検出のために、YOLOv12とDINOv3の自己教師型視覚変換器を組み合わせたハイブリッドアーキテクチャであるDINO-YOLOを紹介する。
DINOv3の機能は、入力前処理(P0)と中盤強化(P3)という2つの場所で戦略的に統合されている。
トンネルセグメントき裂検出(648画像)は12.4%改善、1K画像)は13.7%向上、7K画像)は88.6%改善し、リアルタイム推論(30-47FPS)は維持されている。
5つのYOLOスケールと9つのDINOv3バージョンにわたる体系的アブレーションは、中規模アーキテクチャがDualP0P3統合(55.77% mAP@0.5)で最適なパフォーマンスを達成していることを示している。
2-4xの推論オーバーヘッド(21-33ms対8-16msのベースライン)はNVIDIA RTX 5090上でのフィールド展開では引き続き許容される。
DINO-YOLOは、計算効率を維持しつつ、土木工学データセット(10K画像)の最先端性能を確立し、データ制約環境における建設安全監視とインフラ検査のための実用的なソリューションを提供する。
関連論文リスト
- Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement [47.16612614191333]
クロスビュージオローカライゼーション(CVGL)により、航空画像とジオタグ付き衛星データベースとのマッチングによるUAVローカライゼーションが可能となる。
既存の方法は、リソース集約的なきめ細かい特徴抽出とアライメントに依存している。
階層的な知識伝達と多視点表現の洗練を組み合わせた資源効率の高いフレームワークであるPFED(Precision-Focused Efficient Design)を提案する。
論文 参考訳(メタデータ) (2025-10-26T08:47:20Z) - A Comprehensive Evaluation of YOLO-based Deer Detection Performance on Edge Devices [6.486957474966142]
鹿の侵入による農業の経済的損失は、アメリカで毎年数億ドルに上っていると推定され、伝統的な緩和戦略の不適切さを浮き彫りにした。
正確で効率的な鹿検出を必要とするインテリジェントで自律的なソリューションには、重要なニーズがある。
本研究では,シカ検出のための最先端深層学習モデルの総合的評価を行う。
論文 参考訳(メタデータ) (2025-09-24T17:01:50Z) - YOLO-APD: Enhancing YOLOv8 for Robust Pedestrian Detection on Complex Road Geometries [0.0]
本稿では,この課題に特化してYOLOv8フレームワークを改良した新しいディープラーニングアーキテクチャであるYOLO-APDを紹介する。
YOLO-APDは最先端の精度を達成し、77.7% mAP@0.5:0.95、例外的な歩行者リコールは96%を超えた。
リアルタイム処理能力を100 FPSで維持し、精度と効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T18:03:40Z) - 15,500 Seconds: Lean UAV Classification Using EfficientNet and Lightweight Fine-Tuning [2.3354223046061016]
本稿では,UAV音声分類におけるデータ不足の課題について,先行作業の拡大による検討を行う。
私たちは、31種類のドローンにまたがる3,100UAVオーディオクリップ(15,500秒)のカスタムデータセットを使用します。
5倍のクロスバリデーション,精度評価,トレーニング効率,堅牢性試験を行った。
論文 参考訳(メタデータ) (2025-05-21T21:53:19Z) - A Light Perspective for 3D Object Detection [46.23578780480946]
本稿では,最先端のDeep Learning技術を特徴抽出に取り入れた新しい手法を提案する。
私たちのモデルであるNextBEVは、ResNet50やMobileNetV3といった既存の機能抽出ツールを超えています。
これらの軽量な提案を融合することにより、VoxelNetベースのモデルの精度を2.93%向上し、PointPillarベースのモデルのF1スコアを約20%改善しました。
論文 参考訳(メタデータ) (2025-03-10T10:03:23Z) - Optimizing YOLO Architectures for Optimal Road Damage Detection and Classification: A Comparative Study from YOLOv7 to YOLOv10 [0.0]
本稿では,ディープラーニングモデルを用いた道路損傷検出のための総合ワークフローを提案する。
ハードウェアの制約を満たすため、大きな画像が収穫され、軽量モデルが利用される。
提案手法では,コーディネートアテンションレイヤを備えたカスタムYOLOv7モデルや,Tiny YOLOv7モデルなど,複数のモデルアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-10-10T22:55:12Z) - What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。