論文の概要: Do Vision-Language Pretrained Models Learn Composable Primitive
Concepts?
- arxiv url: http://arxiv.org/abs/2203.17271v3
- Date: Sun, 28 May 2023 03:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:29:45.694345
- Title: Do Vision-Language Pretrained Models Learn Composable Primitive
Concepts?
- Title(参考訳): 視覚言語事前学習モデルは合成可能な原始概念を学ぶか?
- Authors: Tian Yun, Usha Bhalla, Ellie Pavlick, Chen Sun
- Abstract要約: 多くの視覚言語(VL)モデルは、未ラベルの画像とインターネットからのキャプションペアで事前訓練されている。
基礎的真理の原始概念から、構成モデルが確実に学習可能であることを示す。
我々の研究は、最先端のVL事前訓練モデルが、きめ細かい視覚認識に非常に有用な原始概念を学習していることを明らかにする。
- 参考スコア(独自算出の注目度): 20.130052062267676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language (VL) pretrained models have achieved impressive performance
on multimodal reasoning and zero-shot recognition tasks. Many of these VL
models are pretrained on unlabeled image and caption pairs from the internet.
In this paper, we study whether representations of primitive concepts--such as
colors, shapes, or the attributes of object parts--emerge automatically within
these pretrained VL models. We propose a two-step framework, Compositional
Concept Mapping (CompMap), to investigate this. CompMap first asks a VL model
to generate primitive concept activations with text prompts, and then learns to
construct a composition model that maps the primitive concept activations (e.g.
the likelihood of black tail or red wing) to composite concepts (e.g. a
red-winged blackbird). We show that a composition model can be reliably learn
from ground truth primitive concepts. We thus hypothesize that if primitive
concepts indeed emerge in a VL pretrained model, its primitive concept
activations can be used to learn a composition model similar to the one
designed by experts. We propose a quantitative metric to measure the degree of
similarity, and refer to the metric as the interpretability metric. We also
measure the classification accuracy when using the primitive concept
activations and the learned composition model to predict the composite
concepts, and refer to it as the usefulness metric. Our study reveals that
state-of-the-art VL pretrained models learn primitive concepts that are highly
useful for fine-grained visual recognition on the CUB dataset, and
compositional generalization tasks on the MIT-States dataset. However, we
observe that the learned composition models have low interpretability in our
qualitative analyses. Our results reveal the limitations of existing VL models,
and the necessity of pretraining objectives that encourage the acquisition of
primitive concepts.
- Abstract(参考訳): 視覚言語(VL)事前訓練されたモデルは、マルチモーダル推論とゼロショット認識タスクにおいて印象的な性能を達成した。
これらのVLモデルの多くは、未ラベルの画像とインターネットからのキャプションペアで事前訓練されている。
本稿では,プリミティブな概念の表現 – 色や形状,対象部品の属性など – が,これらの事前学習されたVLモデルに自動的に組み込まれるかを検討する。
そこで本研究では,合成概念マッピング(compmap)という2段階の枠組みを提案する。
CompMapはまず、テキストプロンプトでプリミティブな概念アクティベーションを生成するためにVLモデルを求め、続いて、プリミティブな概念アクティベーション(例えば、ブラックテールやレッドウィング)を複合的な概念(例えば、赤翼のブラックバード)にマッピングするコンポジションモデルを構築することを学ぶ。
構成モデルは基礎的真理の原始概念から確実に学習できることを示す。
したがって、プリミティブな概念が実際にVL事前学習モデルに現れるなら、そのプリミティブな概念アクティベーションは、専門家が設計したような構成モデルを学ぶのに使用できる。
類似度を測定するための定量的指標を提案し,その計量を解釈可能性計量と呼ぶ。
また,プリミティブ概念アクティベーションと学習合成モデルを用いて複合概念を予測した場合の分類精度を測定し,有用指標として参照する。
本研究は,最先端のvlプリトレーニングモデルが,cubデータセットのきめ細かなビジュアル認識や,mit-statesデータセットの合成一般化タスクに非常に有用なプリミティブ概念を学習することを明らかにする。
しかし,我々は,学習構成モデルが定性解析において低い解釈性を有することを観察した。
本結果は,既存のVLモデルの限界と,プリミティブな概念の獲得を促す事前学習の必要性を明らかにする。
関連論文リスト
- Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Improving Concept Alignment in Vision-Language Concept Bottleneck Models [9.228586820098723]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。
近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促すことでCBM構築を自動化する。
LLMによって生成されたものよりも、人間の専門家によって定義された概念でCBMを構築することが望まれる。
論文 参考訳(メタデータ) (2024-05-03T03:02:00Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Concept-based Explanations using Non-negative Concept Activation Vectors
and Decision Tree for CNN Models [4.452019519213712]
本稿では、概念に基づく説明書から抽出した概念に基づいて決定木を訓練することで、畳み込みニューラルネットワーク(CNN)モデルの解釈可能性を高めることができるかどうかを評価する。
論文 参考訳(メタデータ) (2022-11-19T21:42:55Z) - Concept-Based Explanations for Tabular Data [0.0]
ディープニューラルネットワーク(DNN)のための概念に基づく説明可能性を提案する。
本研究では,人間レベルの直観に合致する解釈可能性を示す手法の有効性を示す。
また,DNNのどの層がどの層を学習したのかを定量化したTCAVに基づく公平性の概念を提案する。
論文 参考訳(メタデータ) (2022-09-13T02:19:29Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。