論文の概要: Mutually-Aware Feature Learning for Few-Shot Object Counting
- arxiv url: http://arxiv.org/abs/2408.09734v1
- Date: Mon, 19 Aug 2024 06:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:24:19.937984
- Title: Mutually-Aware Feature Learning for Few-Shot Object Counting
- Title(参考訳): Few-Shot Object Countingのための相互認識型特徴学習
- Authors: Yerim Jeon, Subeen Lee, Jihwan Kim, Jae-Pil Heo,
- Abstract要約: 追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
本稿では,質問文と模範的特徴を相互に認識する,MAFEA(Mutually-Aware FEAture Learning)という新しいフレームワークを提案する。
本モデルでは, FSCD-LVIS と FSC-147 の2つのベンチマークにおいて, 目標混乱の程度を著しく低減し, 新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 20.623402944601775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot object counting has garnered significant attention for its practicality as it aims to count target objects in a query image based on given exemplars without the need for additional training. However, there is a shortcoming in the prevailing extract-and-match approach: query and exemplar features lack interaction during feature extraction since they are extracted unaware of each other and later correlated based on similarity. This can lead to insufficient target awareness of the extracted features, resulting in target confusion in precisely identifying the actual target when multiple class objects coexist. To address this limitation, we propose a novel framework, Mutually-Aware FEAture learning(MAFEA), which encodes query and exemplar features mutually aware of each other from the outset. By encouraging interaction between query and exemplar features throughout the entire pipeline, we can obtain target-aware features that are robust to a multi-category scenario. Furthermore, we introduce a background token to effectively associate the target region of query with exemplars and decouple its background region from them. Our extensive experiments demonstrate that our model reaches a new state-of-the-art performance on the two challenging benchmarks, FSCD-LVIS and FSC-147, with a remarkably reduced degree of the target confusion problem.
- Abstract(参考訳): 追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
しかし、一般的な抽出・マッチング手法には欠点がある:クエリと例える特徴は、互いに意識せず、その後類似性に基づいて相関して抽出されるため、特徴抽出時の相互作用を欠いている。
これにより、抽出された特徴のターゲット認識が不十分になり、複数のクラスオブジェクトが共存する際の実際のターゲットを正確に識別するターゲット混乱が発生する可能性がある。
この制限に対処するため,クエリと特徴を相互に認識するMAFEA(Mutually-Aware FEAture Learning)を提案する。
パイプライン全体を通してクエリと典型的な機能間のインタラクションを促進することで、マルチカテゴリシナリオに対して堅牢なターゲット認識機能を得ることができます。
さらに、クエリのターゲット領域を例示と効果的に関連付け、そのバックグラウンド領域をそれらから切り離すバックグラウンドトークンを導入する。
本研究では,FSCD-LVIS と FSC-147 の2つのベンチマークにおいて,本モデルが新たな最先端性能に達することを実証した。
関連論文リスト
- Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training [84.95281245784348]
共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:13:24Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Beyond Semantics: Learning a Behavior Augmented Relevance Model with
Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。
ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。
本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文 参考訳(メタデータ) (2023-08-10T06:52:53Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z) - Few-shot Object Detection with Self-adaptive Attention Network for
Remote Sensing Images [11.938537194408669]
本報告では, ごく一部の例で提供される新しい物体を検出するために設計された, 数発の物体検出器を提案する。
対象物検出設定に適合するため,本提案では,全画像ではなく対象物レベルの関係に焦点を合わせている。
本実験は, 撮影シーンにおける提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2020-09-26T13:44:58Z) - Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video
Grounding [90.12181414070496]
本稿では,オブジェクト認識関係探索のための新しいオブジェクト認識型マルチブランチ関係ネットワークを提案する。
次に,主枝と補助枝の間の重要な対象関係を捉えるためのマルチブランチ推論を提案する。
論文 参考訳(メタデータ) (2020-08-16T15:39:56Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。