論文の概要: PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck
- arxiv url: http://arxiv.org/abs/2403.05297v2
- Date: Mon, 8 Apr 2024 12:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 00:47:03.703248
- Title: PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck
- Title(参考訳): PEEB: 説明可能な編集可能な言語ボトルネックを持つ部分ベース画像分類器
- Authors: Thang M. Pham, Peijie Chen, Tin Nguyen, Seunghyun Yoon, Trung Bui, Anh Nguyen,
- Abstract要約: クラス名が不明なゼロショット設定では、PEEBはCLIPをはるかに上回っている。
PEEBは、教師付き学習環境(CUB-200とDogs-120でそれぞれ88.80%と92.20%の精度)における最先端技術(SOTA)であるだけでなく、ユーザーがテキスト記述子を編集して再訓練せずに新しい分類子を作成できるようにする最初の方法でもある。
- 参考スコア(独自算出の注目度): 20.926189993063755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. Therefore, they perform poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For fine-grained classification, we propose PEEB - an explainable and editable classifier to (1) express the class name into a set of text descriptors that describe the visual parts of that class; and (2) match the embeddings of the detected parts to their textual descriptors in each class to compute a logit score for classification. In a zero-shot setting where the class names are unknown, PEEB outperforms CLIP by a huge margin (~10x in top-1 accuracy). Compared to part-based classifiers, PEEB is not only the state-of-the-art (SOTA) on the supervised-learning setting (88.80% and 92.20% accuracy on CUB-200 and Dogs-120, respectively) but also the first to enable users to edit the text descriptors to form a new classifier without any re-training. Compared to concept bottleneck models, PEEB is also the SOTA in both zero-shot and supervised-learning settings.
- Abstract(参考訳): CLIPベースの分類器は、テキストエンコーダで知られている {class name} を含むプロンプトに依存している。
そのため、インターネット上にはほとんど登場しない新しいクラス(例えば、鳥の学名など)では、パフォーマンスが良くない。
細かな分類のために,PEEB は(1) クラス名をそのクラスの視覚的部分を記述したテキスト記述子に表現し,(2) 検出された部分の埋め込みを各クラス内のテキスト記述子にマッチさせ,分類のためのロジットスコアを計算する。
クラス名が不明なゼロショット設定では、PEEBはCLIPを大きなマージン(トップ1の精度で約10倍)で上回る。
PEEBは、パートベースの分類器と比較して、教師付き学習環境(CUB-200とDogs-120でそれぞれ88.80%と92.20%の精度)における最先端(SOTA)であるだけでなく、ユーザーが再訓練せずにテキスト記述器を編集できるようにする最初の方法でもある。
概念ボトルネックモデルと比較すると、PEEBはゼロショットと教師あり学習設定の両方においてSOTAでもある。
関連論文リスト
- Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional
Image Classifiers [1.6252896527001481]
本稿では,ラベルを関連概念の集合に分解する手法を提案する。
HOLMESはイメージ分類のためのコンポーネントレベルの説明を提供する。
論文 参考訳(メタデータ) (2024-03-13T13:51:02Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - PIEClass: Weakly-Supervised Text Classification with Prompting and
Noise-Robust Iterative Ensemble Training [42.013879670590214]
弱教師付きテキスト分類は、ターゲットクラスのラベル名を使用した分類器を唯一の監督として訓練する。
2つのモジュールからなるPIEClassを提案する。
PIEClassは、既存の7つのベンチマークデータセットの強いベースラインよりも全体的なパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-05-23T06:19:14Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets [24.868024094095983]
オープン語彙モデル(例えばCLIP)はゼロショット分類において強い性能を示している。
暗黙的な意味的階層を持つデータセットに対する階層的ラベルセット(CHiLS)を用いた分類を提案する。
CHiLSは既存のゼロショットパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。
論文 参考訳(メタデータ) (2023-02-06T03:59:15Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z) - Learning Class Regularized Features for Action Recognition [68.90994813947405]
本稿では,階層活性化のクラスベース正規化を行うクラス正規化手法を提案する。
動作認識に最先端CNNアーキテクチャのクラス正規化ブロックを用いることで,Kineetics,UCF-101,HMDB-51データセットにおいて,それぞれ1.8%,1.2%,1.4%の体系的改善が得られた。
論文 参考訳(メタデータ) (2020-02-07T07:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。