論文の概要: A Text-Guided Vision Model for Enhanced Recognition of Small Instances
- arxiv url: http://arxiv.org/abs/2602.19503v1
- Date: Mon, 23 Feb 2026 04:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.676049
- Title: A Text-Guided Vision Model for Enhanced Recognition of Small Instances
- Title(参考訳): テキスト誘導型視覚モデルによる小インスタンス認識の高速化
- Authors: Hyun-Ki Jung,
- Abstract要約: 高速なテキスト誘導型物体検出モデルを開発し,小型物体の検出を効率化した。
提案手法は、YOLOv8バックボーンのC2f層をC3k2層に置き換え、より正確な局所特徴表現を可能にする。
VisDroneデータセットの比較実験により、提案モデルが元のYOLO-Worldモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As drone-based object detection technology continues to evolve, the demand is shifting from merely detecting objects to enabling users to accurately identify specific targets. For example, users can input particular targets as prompts to precisely detect desired objects. To address this need, an efficient text-guided object detection model has been developed to enhance the detection of small objects. Specifically, an improved version of the existing YOLO-World model is introduced. The proposed method replaces the C2f layer in the YOLOv8 backbone with a C3k2 layer, enabling more precise representation of local features, particularly for small objects or those with clearly defined boundaries. Additionally, the proposed architecture improves processing speed and efficiency through parallel processing optimization, while also contributing to a more lightweight model design. Comparative experiments on the VisDrone dataset show that the proposed model outperforms the original YOLO-World model, with precision increasing from 40.6% to 41.6%, recall from 30.8% to 31%, F1 score from 35% to 35.5%, and mAP@0.5 from 30.4% to 30.7%, confirming its enhanced accuracy. Furthermore, the model demonstrates superior lightweight performance, with the parameter count reduced from 4 million to 3.8 million and FLOPs decreasing from 15.7 billion to 15.2 billion. These results indicate that the proposed approach provides a practical and effective solution for precise object detection in drone-based applications.
- Abstract(参考訳): ドローンによる物体検出技術が進化を続ける中、需要は単に物体を検知することから、ユーザーが特定のターゲットを正確に識別できるようにすることへとシフトしている。
例えば、ユーザは特定のターゲットを入力して、望ましいオブジェクトを正確に検出するプロンプトを指定できる。
このニーズに対処するために、小さなオブジェクトの検出を強化するために、効率的なテキスト誘導オブジェクト検出モデルが開発されている。
具体的には、既存のYOLO-Worldモデルの改良版を紹介する。
提案手法は、YOLOv8バックボーンのC2f層をC3k2層に置き換え、特に小さなオブジェクトや明確に定義された境界を持つものといった局所的な特徴をより正確に表現できるようにする。
さらに、提案アーキテクチャは並列処理最適化により処理速度と効率を向上させるとともに、より軽量なモデル設計にも貢献する。
VisDroneデータセットの比較実験によると、提案されたモデルは元のYOLO-Worldモデルよりも優れており、精度は40.6%から41.6%、リコールは30.8%から31%、F1スコアは35%から35.5%、mAP@0.5は30.4%から30.7%で、精度は向上した。
さらに、パラメータ数は400万から380万に減少し、FLOPは157億から152億に減少する。
これらの結果から, 提案手法は, ドローンによる精密物体検出において, 実用的かつ効果的に実現可能であることが示唆された。
関連論文リスト
- A Light Perspective for 3D Object Detection [46.23578780480946]
本稿では,最先端のDeep Learning技術を特徴抽出に取り入れた新しい手法を提案する。
私たちのモデルであるNextBEVは、ResNet50やMobileNetV3といった既存の機能抽出ツールを超えています。
これらの軽量な提案を融合することにより、VoxelNetベースのモデルの精度を2.93%向上し、PointPillarベースのモデルのF1スコアを約20%改善しました。
論文 参考訳(メタデータ) (2025-03-10T10:03:23Z) - LeYOLO, New Embedded Architecture for Object Detection [0.0]
MSCOCOをベース検証セットとして用いたオブジェクト検出モデルに2つの重要な貢献点を紹介する。
まず,SSDLiteに匹敵する推論速度を維持する汎用検出フレームワークであるLeNeckを提案する。
第2に, YOLOアーキテクチャにおける計算効率の向上を目的とした, 効率的なオブジェクト検出モデルであるLeYOLOを提案する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5 [19.388112026410045]
YOLO-TLAは、YOLOv5上に構築された高度な物体検出モデルである。
まず、ネックネットワークピラミッドアーキテクチャにおいて、小さなオブジェクトに対する検出層を新たに導入する。
このモジュールはスライディングウィンドウの特徴抽出を使い、計算要求とパラメータ数の両方を効果的に最小化する。
論文 参考訳(メタデータ) (2024-02-22T05:55:17Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。