論文の概要: Multi-Point Positional Insertion Tuning for Small Object Detection
- arxiv url: http://arxiv.org/abs/2412.18090v1
- Date: Tue, 24 Dec 2024 02:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:26.000840
- Title: Multi-Point Positional Insertion Tuning for Small Object Detection
- Title(参考訳): 小型物体検出のための多点位置挿入調整
- Authors: Kanoko Goto, Takumi Karasawa, Takumi Hirose, Rei Kawakami, Nakamasa Inoue,
- Abstract要約: 小さなオブジェクト検出は、画像内の小さなオブジェクトをローカライズし、分類することを目的としている。
訓練済みのオブジェクト検出モデルを微調整することは、計算量とメモリコストがかかる。
本稿では,小物体検出のためのパラメータ効率微調整(PEFT)手法であるMPIチューニングを提案する。
- 参考スコア(独自算出の注目度): 10.852047082856487
- License:
- Abstract: Small object detection aims to localize and classify small objects within images. With recent advances in large-scale vision-language pretraining, finetuning pretrained object detection models has emerged as a promising approach. However, finetuning large models is computationally and memory expensive. To address this issue, this paper introduces multi-point positional insertion (MPI) tuning, a parameter-efficient finetuning (PEFT) method for small object detection. Specifically, MPI incorporates multiple positional embeddings into a frozen pretrained model, enabling the efficient detection of small objects by providing precise positional information to latent features. Through experiments, we demonstrated the effectiveness of the proposed method on the SODA-D dataset. MPI performed comparably to conventional PEFT methods, including CoOp and VPT, while significantly reducing the number of parameters that need to be tuned.
- Abstract(参考訳): 小さなオブジェクト検出は、画像内の小さなオブジェクトをローカライズし、分類することを目的としている。
近年の大規模視覚言語事前学習の進歩により、精密な事前学習対象検出モデルが有望なアプローチとして出現している。
しかし、大規模モデルの微調整は計算量が多く、メモリコストも高い。
この問題に対処するために,小物体検出のための多点位置挿入(MPI)チューニング,パラメータ効率向上(PEFT)方式を提案する。
具体的には、MPIは複数の位置埋め込みを凍結した事前訓練されたモデルに組み込んで、潜伏した特徴に対して正確な位置情報を提供することで、小さな物体の効率的な検出を可能にする。
実験により,SODA-Dデータセットにおける提案手法の有効性を実証した。
MPIは、CoOpやVPTを含む従来のPEFT法と互換性があり、調整が必要なパラメータの数を大幅に削減した。
関連論文リスト
- Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Boost UAV-based Ojbect Detection via Scale-Invariant Feature Disentanglement and Adversarial Learning [18.11107031800982]
本稿では,スケール不変の特徴を学習することで,単段階推論の精度を向上させることを提案する。
提案手法は,モデル精度を効果的に向上し,2つのデータセット上での最先端(SoTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:40:22Z) - Visible and Clear: Finding Tiny Objects in Difference Map [50.54061010335082]
本稿では,検出モデルに自己再構成機構を導入し,それと微小物体との強い相関関係を明らかにする。
具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。
さらに、小さな特徴表現をより明確にするために、差分マップガイド機能拡張(DGFE)モジュールを開発する。
論文 参考訳(メタデータ) (2024-05-18T12:22:26Z) - Small Object Detection by DETR via Information Augmentation and Adaptive
Feature Fusion [4.9860018132769985]
RT-DETRモデルは、リアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。
異なるレベルから各特徴マップに学習可能なパラメータを割り当てる適応的特徴融合アルゴリズムを提案する。
これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトを検出する精度が向上する。
論文 参考訳(メタデータ) (2024-01-16T00:01:23Z) - Dynamic Tiling: A Model-Agnostic, Adaptive, Scalable, and
Inference-Data-Centric Approach for Efficient and Accurate Small Object
Detection [3.8332251841430423]
Dynamic Tilingは、小さなオブジェクト検出のためのモデルに依存しない、適応的でスケーラブルなアプローチである。
本手法は, フラグメントオブジェクトを効果的に解決し, 検出精度を向上し, 計算オーバーヘッドを最小限に抑える。
全体として、Dynamic Tilingは既存のモデルに依存しない一様収穫法よりも優れている。
論文 参考訳(メタデータ) (2023-09-20T05:25:12Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - Dynamic Proposals for Efficient Object Detection [48.66093789652899]
本稿では,オブジェクト検出のための動的提案を生成することによって,異なる計算資源に適応する簡易かつ効果的な手法を提案する。
提案手法は,2段階モデルと問合せモデルを含む広範囲な検出モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:32:50Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。