論文の概要: Visual Recognition by Request
- arxiv url: http://arxiv.org/abs/2207.14227v1
- Date: Thu, 28 Jul 2022 16:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:34:13.866221
- Title: Visual Recognition by Request
- Title(参考訳): 要求による視覚認識
- Authors: Chufeng Tang, Lingxi Xie, Xiaopeng Zhang, Xiaolin Hu, Qi Tian
- Abstract要約: 視覚認識のためのアノテーションと評価の新しいプロトコルを提案する。
すべてのターゲット(オブジェクト、部品など)を一度にアノテート/認識するためにラベルやアルゴリズムを必要とせず、代わりに多数の認識命令を発生させ、アルゴリズムは要求によってターゲットを認識する。
CPP と ADE20K という2つの混合注釈付きデータセットに対する認識システムの評価を行い,その有望な学習能力を部分的にラベル付けしたデータから示す。
- 参考スコア(独自算出の注目度): 111.94887516317735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel protocol of annotation and evaluation for
visual recognition. Different from traditional settings, the protocol does not
require the labeler/algorithm to annotate/recognize all targets (objects,
parts, etc.) at once, but instead raises a number of recognition instructions
and the algorithm recognizes targets by request. This mechanism brings two
beneficial properties to reduce the burden of annotation, namely, (i) variable
granularity: different scenarios can have different levels of annotation, in
particular, object parts can be labeled only in large and clear instances, (ii)
being open-domain: new concepts can be added to the database in minimal costs.
To deal with the proposed setting, we maintain a knowledge base and design a
query-based visual recognition framework that constructs queries on-the-fly
based on the requests. We evaluate the recognition system on two
mixed-annotated datasets, CPP and ADE20K, and demonstrate its promising ability
of learning from partially labeled data as well as adapting to new concepts
with only text labels.
- Abstract(参考訳): 本稿では,視覚認識のためのアノテーションと評価のための新しいプロトコルを提案する。
従来の設定とは異なり、このプロトコルではラベラー/アリゴリテムが全てのターゲット(オブジェクト、部品など)を一度に注釈・認識する必要はなく、代わりに多数の認識命令を発生させ、アルゴリズムは要求によってターゲットを認識する。
このメカニズムはアノテーションの負担を減らすために2つの有益な特性をもたらす。
(i)変数の粒度:異なるシナリオは異なるレベルのアノテーションを持つことができる。
(ii) オープンドメイン: 最小限のコストでデータベースに新しい概念を追加することができる。
提案した設定に対処するため,要求に基づいてクエリをオンザフライで構築する問合せベースの視覚認識フレームワークを設計する。
CPP と ADE20K という2つの混合注釈付きデータセットに対する認識システムの評価を行い,部分的にラベル付けされたデータから学習し,テキストラベルのみで新しい概念に適応できることを示す。
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - DeLR: Active Learning for Detection with Decoupled Localization and
Recognition Query [53.54802901197267]
本稿では,物体検出のための2つの重要な要素,すなわち局所化と認識を再考する。
そこで本研究では,アクティブクエリの局所化と認識をデカップリングする,効率的なクエリ戦略を提案する。
論文 参考訳(メタデータ) (2023-12-28T09:58:32Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Uncertainty-Aware Annotation Protocol to Evaluate Deformable
Registration Algorithms [3.2845753359072125]
変形性登録における金規格構築のための原則的な戦略を紹介します。
i) 従来のアノテーションとの冗長性を考慮して、次に注釈をつけるための最も有益な場所を反復的に提案する; (ii) それぞれのアノテーションの空間的不確実性を考慮して、従来のポイントワイズアノテーションを拡張する; (iii) 自然に変形可能な登録アルゴリズムを評価するための新しい戦略を提供する。
論文 参考訳(メタデータ) (2021-04-02T19:31:19Z) - Adaptive Attentional Network for Few-Shot Knowledge Graph Completion [16.722373937828117]
Few-shot Knowledge Graph (KG) の完成は、現在の研究の焦点であり、各タスクは、数少ない参照エンティティペアを考えると、関係の見えない事実をクエリすることを目的としている。
最近の試みでは、エンティティと参照の静的表現を学習し、それらの動的特性を無視してこの問題を解決している。
本研究は,適応実体と参照表現を学習することにより,数ショットのKG補完のための適応的注意ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T16:27:48Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。