Fugu-MT 論文翻訳(概要): Evolving Interpretable Visual Classifiers with Large Language Models

論文の概要: Evolving Interpretable Visual Classifiers with Large Language Models

arxiv url: http://arxiv.org/abs/2404.09941v1
Date: Mon, 15 Apr 2024 17:09:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:27:57.958111
Title: Evolving Interpretable Visual Classifiers with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた解釈可能な視覚分類器の進化
Authors: Mia Chiquier, Utkarsh Mall, Carl Vondrick,
Abstract要約: CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
参考スコア（独自算出の注目度）: 34.4903887876357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal pre-trained models, such as CLIP, are popular for zero-shot classification due to their open-vocabulary flexibility and high performance. However, vision-language models, which compute similarity scores between images and class labels, are largely black-box, with limited interpretability, risk for bias, and inability to discover new visual concepts not written down. Moreover, in practical settings, the vocabulary for class names and attributes of specialized concepts will not be known, preventing these methods from performing well on images uncommon in large-scale vision-language datasets. To address these limitations, we present a novel method that discovers interpretable yet discriminative sets of attributes for visual recognition. We introduce an evolutionary search algorithm that uses a large language model and its in-context learning abilities to iteratively mutate a concept bottleneck of attributes for classification. Our method produces state-of-the-art, interpretable fine-grained classifiers. We outperform the latest baselines by 18.4% on five fine-grained iNaturalist datasets and by 22.2% on two KikiBouba datasets, despite the baselines having access to privileged information about class names.
Abstract（参考訳）: CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。しかし、画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。さらに、実践的な設定では、クラス名や特殊概念の属性の語彙は知られていないため、大規模な視覚言語データセットでは一般的ではない画像に対して、これらの手法がうまく機能しない。これらの制約に対処するため、視覚認識のための解釈可能だが識別可能な属性集合を検出する新しい手法を提案する。本稿では,大規模言語モデルとその文脈内学習能力を用いた進化的探索アルゴリズムを提案する。本手法は, 最先端, 解釈可能な細粒度分類器を生成する。我々は、5つの細かいiNaturalistデータセットで18.4%、および2つのKikiBoubaデータセットで22.2%、クラス名に関する特権情報にアクセスできるベースラインにもかかわらず、最新のベースラインを18.4%上回っている。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
Dynamic Dictionary Learning for Remote Sensing Image Segmentation [22.457901431083645]
この研究は動的辞書学習フレームワークを導入し、反復的な洗練を通じてクラスIDの埋め込みを明示的にモデル化する。その中核となる貢献は、クラス認識のセマンティック埋め込みが徐々に更新される新しい辞書構築メカニズムにある。粗いデータセットときめ細かいデータセットの両方にわたる実験は、最先端の手法よりも一貫した改善を示している。
論文参考訳（メタデータ） (2025-03-09T16:25:16Z)
Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。 VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2024-11-27T01:55:08Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文参考訳（メタデータ） (2023-04-04T14:34:44Z)
VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文参考訳（メタデータ） (2022-03-20T03:49:02Z)
On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文参考訳（メタデータ） (2022-02-17T22:40:19Z)
Learning and Evaluating Representations for Deep One-class Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文参考訳（メタデータ） (2020-11-04T23:33:41Z)
Quantifying Learnability and Describability of Visual Concepts Emerging in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文参考訳（メタデータ） (2020-10-27T18:41:49Z)
Discriminative Dictionary Design for Action Classification in Still Images and Videos [29.930239762446217]
本稿では,ロバストな局所特徴とカテゴリ固有の局所特徴を識別する新たな識別手法を提案する。フレームワークは静止画像とビデオに基づいて、アクション認識データセット上で検証される。
論文参考訳（メタデータ） (2020-05-20T15:56:41Z)
Classification of Chinese Handwritten Numbers with Labeled Projective Dictionary Pair Learning [1.8594711725515674]
我々は,識別可能性,空間性,分類誤差の3つの要因を取り入れたクラス固有辞書を設計する。我々は、辞書原子を生成するために、新しい特徴空間、すなわち、向き付け勾配(HOG)のヒストグラムを採用する。その結果,最先端のディープラーニング技術と比較して,分類性能が向上した(sim98%)。
論文参考訳（メタデータ） (2020-03-26T01:43:59Z)
Adapting Deep Learning for Sentiment Classification of Code-Switched Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文参考訳（メタデータ） (2020-01-04T06:31:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。