Fugu-MT 論文翻訳(概要): Learning Concise and Descriptive Attributes for Visual Recognition

論文の概要: Learning Concise and Descriptive Attributes for Visual Recognition

arxiv url: http://arxiv.org/abs/2308.03685v1
Date: Mon, 7 Aug 2023 16:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 12:53:09.690189
Title: Learning Concise and Descriptive Attributes for Visual Recognition
Title（参考訳）: 視覚認識のための簡潔さと記述属性の学習
Authors: An Yan, Yu Wang, Yiwu Zhong, Chengyu Dong, Zexue He, Yujie Lu, William Wang, Jingbo Shang, Julian McAuley
Abstract要約: 数千の属性をクエリすることで、画像機能と競合するパフォーマンスが得られることを示す。そこで本研究では,これらの属性の簡潔な集合を見つけるための新しい学習・探索手法を提案する。
参考スコア（独自算出の注目度）: 25.142065847381758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in foundation models present new opportunities for interpretable visual recognition -- one can first query Large Language Models (LLMs) to obtain a set of attributes that describe each class, then apply vision-language models to classify images via these attributes. Pioneering work shows that querying thousands of attributes can achieve performance competitive with image features. However, our further investigation on 8 datasets reveals that LLM-generated attributes in a large quantity perform almost the same as random words. This surprising finding suggests that significant noise may be present in these attributes. We hypothesize that there exist subsets of attributes that can maintain the classification performance with much smaller sizes, and propose a novel learning-to-search method to discover those concise sets of attributes. As a result, on the CUB dataset, our method achieves performance close to that of massive LLM-generated attributes (e.g., 10k attributes for CUB), yet using only 32 attributes in total to distinguish 200 bird species. Furthermore, our new paradigm demonstrates several additional benefits: higher interpretability and interactivity for humans, and the ability to summarize knowledge for a recognition task.
Abstract（参考訳）: 基礎モデルの最近の進歩は、解釈可能な視覚認識の新しい機会を提示している。まず最初にLLM(Large Language Models)をクエリして、各クラスを記述する属性のセットを取得し、その属性を通じてイメージを分類するために視覚言語モデルを適用する。先駆的な作業は、数千の属性をクエリすることで、画像機能と競合するパフォーマンスを達成できることを示しています。しかし,8つのデータセットのさらなる調査により,LLM生成属性がランダムな単語とほぼ同等であることが明らかとなった。この驚くべき発見は、これらの属性に重大なノイズが存在することを示唆している。より小さいサイズで分類性能を維持できる属性のサブセットが存在すると仮定し,これらの属性の簡潔な集合を見つけるための新しい学習・探索法を提案する。その結果, CUBデータセットでは, LLM生成属性(例えば, CUBの10k属性)に近い性能を達成できたが, 鳥200種を識別するために, 合計32の属性しか利用できなかった。さらに,新たなパラダイムでは,人間に対する高い解釈可能性や対話性,認識タスクの知識を要約する能力など,いくつかのメリットが示された。

関連論文リスト

Compositional Caching for Training-free Open-vocabulary Attribute Detection [65.46250297408974]
オープンボキャブラリ属性検出のためのトレーニング不要なComcal Caching(ComCa)を提案する。 ComCaは、イメージの補助キャッシュをポップアップするために、ターゲット属性とオブジェクトのリストのみを入力として使用する。パブリックデータセットの実験では、ComCaがゼロショットとキャッシュベースのベースラインを大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2025-03-24T21:00:37Z)
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文参考訳（メタデータ） (2024-12-18T15:28:08Z)
Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。 HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文参考訳（メタデータ） (2024-11-28T09:50:25Z)
Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。 VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2024-11-27T01:55:08Z)
CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.286598189230396]
Class-Agnostic Shared Attribute Baseは、インクリメンタルクラス間で共有されるカテゴリに依存しない属性を学ぶことをモデルに推奨する。その後のタスクでは、保持された属性は凍結され、残りの候補から新しい属性が選択される。 COCOデータセットの実験により,本手法の最先端性能が実証された。
論文参考訳（メタデータ） (2024-10-08T08:36:12Z)
Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:09:53Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文参考訳（メタデータ） (2023-05-29T08:04:05Z)
Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T02:25:40Z)
Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文参考訳（メタデータ） (2021-12-23T14:32:51Z)
Shaping Visual Representations with Attributes for Few-Shot Learning [5.861206243996454]
少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。近年,メートル法に基づく数ショット学習法は有望な性能を達成している。本稿では,属性型学習(ASL)を提案する。
論文参考訳（メタデータ） (2021-12-13T03:16:19Z)
Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文参考訳（メタデータ） (2021-11-28T15:45:54Z)
FashionSearchNet-v2: Learning Attribute Representations with Localization for Image Retrieval with Attribute Manipulation [22.691709684780292]
提案されているFashionSearchNet-v2アーキテクチャは、その弱教師付きローカライゼーションモジュールを利用して属性固有の表現を学習することができる。ネットワークは属性分類と三重項ランキング損失の組み合わせで共同で訓練され、局所表現を推定する。 FashionSearchNet-v2は、属性数の観点からリッチないくつかのデータセットで実施された実験により、他の最先端属性操作技術よりも優れていた。
論文参考訳（メタデータ） (2021-11-28T13:50:20Z)
Learning Compositional Representation for Few-shot Visual Question Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。 VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文参考訳（メタデータ） (2021-02-21T10:16:24Z)
Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition [27.0842107128122]
属性誘導型アテンションモジュール (AGAM) を設計し, 属性を付加し, より識別的な特徴を学習する。提案モジュールは,最先端性能を実現するため,単純なメートル法に基づくアプローチを大幅に改善することができる。
論文参考訳（メタデータ） (2020-09-10T08:38:32Z)
Selecting Relevant Features from a Multi-domain Representation for Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文参考訳（メタデータ） (2020-03-20T15:44:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。