論文の概要: Learning Concise and Descriptive Attributes for Visual Recognition
- arxiv url: http://arxiv.org/abs/2308.03685v1
- Date: Mon, 7 Aug 2023 16:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:53:09.690189
- Title: Learning Concise and Descriptive Attributes for Visual Recognition
- Title(参考訳): 視覚認識のための簡潔さと記述属性の学習
- Authors: An Yan, Yu Wang, Yiwu Zhong, Chengyu Dong, Zexue He, Yujie Lu, William
Wang, Jingbo Shang, Julian McAuley
- Abstract要約: 数千の属性をクエリすることで、画像機能と競合するパフォーマンスが得られることを示す。
そこで本研究では,これらの属性の簡潔な集合を見つけるための新しい学習・探索手法を提案する。
- 参考スコア(独自算出の注目度): 25.142065847381758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in foundation models present new opportunities for
interpretable visual recognition -- one can first query Large Language Models
(LLMs) to obtain a set of attributes that describe each class, then apply
vision-language models to classify images via these attributes. Pioneering work
shows that querying thousands of attributes can achieve performance competitive
with image features. However, our further investigation on 8 datasets reveals
that LLM-generated attributes in a large quantity perform almost the same as
random words. This surprising finding suggests that significant noise may be
present in these attributes. We hypothesize that there exist subsets of
attributes that can maintain the classification performance with much smaller
sizes, and propose a novel learning-to-search method to discover those concise
sets of attributes. As a result, on the CUB dataset, our method achieves
performance close to that of massive LLM-generated attributes (e.g., 10k
attributes for CUB), yet using only 32 attributes in total to distinguish 200
bird species. Furthermore, our new paradigm demonstrates several additional
benefits: higher interpretability and interactivity for humans, and the ability
to summarize knowledge for a recognition task.
- Abstract(参考訳): 基礎モデルの最近の進歩は、解釈可能な視覚認識の新しい機会を提示している。まず最初にLLM(Large Language Models)をクエリして、各クラスを記述する属性のセットを取得し、その属性を通じてイメージを分類するために視覚言語モデルを適用する。
先駆的な作業は、数千の属性をクエリすることで、画像機能と競合するパフォーマンスを達成できることを示しています。
しかし,8つのデータセットのさらなる調査により,LLM生成属性がランダムな単語とほぼ同等であることが明らかとなった。
この驚くべき発見は、これらの属性に重大なノイズが存在することを示唆している。
より小さいサイズで分類性能を維持できる属性のサブセットが存在すると仮定し,これらの属性の簡潔な集合を見つけるための新しい学習・探索法を提案する。
その結果, CUBデータセットでは, LLM生成属性(例えば, CUBの10k属性)に近い性能を達成できたが, 鳥200種を識別するために, 合計32の属性しか利用できなかった。
さらに,新たなパラダイムでは,人間に対する高い解釈可能性や対話性,認識タスクの知識を要約する能力など,いくつかのメリットが示された。
関連論文リスト
- Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。
画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。
本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:09:53Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features
with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。
本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。
提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文 参考訳(メタデータ) (2021-12-23T14:32:51Z) - Shaping Visual Representations with Attributes for Few-Shot Learning [5.861206243996454]
少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。
近年,メートル法に基づく数ショット学習法は有望な性能を達成している。
本稿では,属性型学習(ASL)を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:16:19Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - FashionSearchNet-v2: Learning Attribute Representations with
Localization for Image Retrieval with Attribute Manipulation [22.691709684780292]
提案されているFashionSearchNet-v2アーキテクチャは、その弱教師付きローカライゼーションモジュールを利用して属性固有の表現を学習することができる。
ネットワークは属性分類と三重項ランキング損失の組み合わせで共同で訓練され、局所表現を推定する。
FashionSearchNet-v2は、属性数の観点からリッチないくつかのデータセットで実施された実験により、他の最先端属性操作技術よりも優れていた。
論文 参考訳(メタデータ) (2021-11-28T13:50:20Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot
Recognition [27.0842107128122]
属性誘導型アテンションモジュール (AGAM) を設計し, 属性を付加し, より識別的な特徴を学習する。
提案モジュールは,最先端性能を実現するため,単純なメートル法に基づくアプローチを大幅に改善することができる。
論文 参考訳(メタデータ) (2020-09-10T08:38:32Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。