論文の概要: Pre-trained Vision-Language Models Learn Discoverable Visual Concepts
- arxiv url: http://arxiv.org/abs/2404.12652v1
- Date: Fri, 19 Apr 2024 06:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:05:28.711223
- Title: Pre-trained Vision-Language Models Learn Discoverable Visual Concepts
- Title(参考訳): 学習可能な視覚概念を学習する事前学習型視覚言語モデル
- Authors: Yuan Zang, Tian Yun, Hao Tan, Trung Bui, Chen Sun,
- Abstract要約: 学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
- 参考スコア(独自算出の注目度): 33.302556000017844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do vision-language models (VLMs) pre-trained to caption an image of a "durian" learn visual concepts such as "brown" (color) and "spiky" (texture) at the same time? We aim to answer this question as visual concepts learned "for free" would enable wide applications such as neuro-symbolic reasoning or human-interpretable object classification. We assume that the visual concepts, if captured by pre-trained VLMs, can be extracted by their vision-language interface with text-based concept prompts. We observe that recent works prompting VLMs with concepts often differ in their strategies to define and evaluate the visual concepts, leading to conflicting conclusions. We propose a new concept definition strategy based on two observations: First, certain concept prompts include shortcuts that recognize correct concepts for wrong reasons; Second, multimodal information (e.g. visual discriminativeness, and textual knowledge) should be leveraged when selecting the concepts. Our proposed concept discovery and learning (CDL) framework is thus designed to identify a diverse list of generic visual concepts (e.g. "spiky" as opposed to "spiky durian"), which are ranked and selected based on visual and language mutual information. We carefully design quantitative and human evaluations of the discovered concepts on six diverse visual recognition datasets, which confirm that pre-trained VLMs do learn visual concepts that provide accurate and thorough descriptions for the recognized objects. All code and models are publicly released.
- Abstract(参考訳): 視覚言語モデル(VLM)は「茶色」や「スピーキー」といった視覚概念を同時に学習する「デュリアン」のイメージをキャプションするために事前訓練されているか。
我々は、視覚概念を「無料で」学習することで、ニューロシンボリック推論や人間解釈可能なオブジェクト分類といった幅広い応用が可能になるとして、この問題に答えることを目指している。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
視覚的概念を定義・評価する戦略において, VLMを概念付きで推進する最近の研究がしばしば異なっていることを観察し, 矛盾する結論を導いた。
まず、正しい概念を誤った理由で認識するショートカットを含む概念定義戦略を提案し、第2に、概念を選択する際にマルチモーダル情報(例えば、視覚的識別性、テキスト知識)を活用すべきである。
提案する概念発見学習(CDL)フレームワークは,視覚的および言語的相互情報に基づいてランク付けされ,選択される,汎用的な視覚概念の多様なリスト(例えば "spiky" は "spiky durian" とは対照的に)を識別するように設計されている。
6つの多様な視覚的認識データセットから得られた概念の定量的および人為的評価を慎重に設計し、事前学習されたVLMが認識対象に対して正確かつ詳細な記述を提供する視覚的概念を学習できることを確認する。
すべてのコードとモデルが公開されている。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - ConceptX: A Framework for Latent Concept Analysis [21.760620298330235]
本稿では,言語モデル(pLM)における潜在表現空間の解釈と注釈付けを行うための,ループ型ヒューマン・イン・ザ・ループ・フレームワークであるConceptXを提案する。
我々は、教師なしの手法を用いて、これらのモデルで学んだ概念を発見し、人間が概念の説明を生成するためのグラフィカルインターフェースを実現する。
論文 参考訳(メタデータ) (2022-11-12T11:31:09Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z) - Visual Concept-Metaconcept Learning [101.62725114966211]
本稿では,概念とメタ概念を画像と関連する問合せ対から学習するための視覚概念メタコンセプタ(VCML)を提案する。
赤と緑がオブジェクトの同じ性質を記述していることを知ると、立方体と球面がオブジェクトの同じ性質を記述しているという事実を一般化する。
論文 参考訳(メタデータ) (2020-02-04T18:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。