論文の概要: TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models
- arxiv url: http://arxiv.org/abs/2309.00733v4
- Date: Thu, 2 May 2024 03:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 22:20:15.581470
- Title: TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models
- Title(参考訳): TExplain: 事前トレーニング(Frozen)言語モデルによる学習済みの視覚機能の説明
- Authors: Saeid Asgari Taghanaki, Aliasghar Khani, Ali Saheb Pasand, Amir Khasahmadi, Aditya Sanghi, Karl D. D. Willis, Ali Mahdavi-Amiri,
- Abstract要約: 本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 14.019349267520541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting the learned features of vision models has posed a longstanding challenge in the field of machine learning. To address this issue, we propose a novel method that leverages the capabilities of language models to interpret the learned features of pre-trained image classifiers. Our method, called TExplain, tackles this task by training a neural network to establish a connection between the feature space of image classifiers and language models. Then, during inference, our approach generates a vast number of sentences to explain the features learned by the classifier for a given image. These sentences are then used to extract the most frequent words, providing a comprehensive understanding of the learned features and patterns within the classifier. Our method, for the first time, utilizes these frequent words corresponding to a visual representation to provide insights into the decision-making process of the independently trained classifier, enabling the detection of spurious correlations, biases, and a deeper comprehension of its behavior. To validate the effectiveness of our approach, we conduct experiments on diverse datasets, including ImageNet-9L and Waterbirds. The results demonstrate the potential of our method to enhance the interpretability and robustness of image classifiers.
- Abstract(参考訳): 視覚モデルの学習した特徴を解釈することは、機械学習の分野で長年の課題となっている。
この問題に対処するために,事前学習された画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
TExplainと呼ばれる我々の手法は、ニューラルネットワークを訓練し、画像分類器の特徴空間と言語モデルとの接続を確立することで、この課題に取り組む。
そして,提案手法は,画像の分類器が学習した特徴を説明するために,膨大な数の文を生成する。
これらの文は、最も頻繁な単語を抽出するために使用され、分類器内の学習した特徴やパターンを包括的に理解する。
本手法は, 視覚表現に対応する頻繁な単語を用いて, 独立に訓練された分類器の意思決定過程を把握し, 素早い相関, バイアス, 行動のより深い理解を可能にする。
提案手法の有効性を検証するため,ImageNet-9LやWaterbirdsなどの多様なデータセットで実験を行った。
その結果,画像分類器の解釈可能性やロバスト性を高める手法の可能性が示された。
関連論文リスト
- Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach [10.54430941755474]
本稿では,CNNに基づく分類システムに適用可能な,ポストホックな自然言語説明法を提案する。
影響力のあるニューロンと対応する活性化マップを分析して、分類器の決定過程の忠実な記述を生成する。
実験の結果,提案手法により構築されたNLEは,より信頼性が高く,忠実であることがわかった。
論文 参考訳(メタデータ) (2024-07-30T15:17:15Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。
画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。
その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文 参考訳(メタデータ) (2023-11-18T02:00:20Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Generating Hierarchical Explanations on Text Classification via Feature
Interaction Detection [21.02924712220406]
特徴的相互作用を検出することによって階層的な説明を構築する。
このような説明は、単語とフレーズが階層の異なるレベルでどのように結合されるかを視覚化する。
実験は、モデルに忠実であり、人間に解釈可能な説明を提供する上で、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-04-04T20:56:37Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。