論文の概要: Few-shot Object Localization
- arxiv url: http://arxiv.org/abs/2403.12466v3
- Date: Wed, 5 Jun 2024 08:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:40:47.877870
- Title: Few-shot Object Localization
- Title(参考訳): オブジェクトローカライゼーション
- Authors: Yunhan Ren, Bo Li, Chengyang Zhang, Yong Zhang, Baocai Yin,
- Abstract要約: 本稿では,Few-Shot Object Localization (FSOL) という新しいタスクを定義する。
限られたサンプルで正確な位置決めを実現することを目的としている。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
- 参考スコア(独自算出の注目度): 37.347898735345574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing object localization methods are tailored to locate specific classes of objects, relying heavily on abundant labeled data for model optimization. However, acquiring large amounts of labeled data is challenging in many real-world scenarios, significantly limiting the broader application of localization models. To bridge this research gap, this paper defines a novel task named Few-Shot Object Localization (FSOL), which aims to achieve precise localization with limited samples. This task achieves generalized object localization by leveraging a small number of labeled support samples to query the positional information of objects within corresponding images. To advance this field, we design an innovative high-performance baseline model. This model integrates a dual-path feature augmentation module to enhance shape association and gradient differences between supports and query images, alongside a self query module to explore the association between feature maps and query images. Experimental results demonstrate a significant performance improvement of our approach in the FSOL task, establishing an efficient benchmark for further research. All codes and data are available at https://github.com/Ryh1218/FSOL.
- Abstract(参考訳): 既存のオブジェクトローカライゼーション手法は、モデル最適化のために大量のラベル付きデータに依存するため、特定のオブジェクトのクラスを特定するように調整されている。
しかし、多くの実世界のシナリオにおいて大量のラベル付きデータを取得することは困難であり、ローカライゼーションモデルの広範な適用を著しく制限する。
そこで本研究では,Few-Shot Object Localization (FSOL, Few-Shot Object Localization) という,限られたサンプルを用いて高精度なローカライゼーションを実現する新しいタスクを定義した。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
この分野を推し進めるために,我々は革新的な高性能ベースラインモデルを設計する。
このモデルは、デュアルパス機能拡張モジュールを統合して、サポートイメージとクエリイメージ間の形状関連と勾配差を強化するとともに、セルフクエリモジュールを使用して、特徴マップとクエリイメージの関係を探索する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
すべてのコードとデータはhttps://github.com/Ryh1218/FSOLで公開されている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。
提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文 参考訳(メタデータ) (2023-05-12T08:10:14Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Dense Relation Distillation with Context-aware Aggregation for Few-Shot
Object Detection [18.04185751827619]
新規なオブジェクトのきめ細かい特徴を、ほんのわずかなデータで簡単に見落としてしまうため、オブジェクト検出は困難である。
本稿では,少数の検出問題に対処するために,DCNet (Context-aware Aggregation) を用いたDense Relation Distillationを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:34:49Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。