論文の概要: Probing Conceptual Understanding of Large Visual-Language Models
- arxiv url: http://arxiv.org/abs/2304.03659v2
- Date: Wed, 25 Oct 2023 21:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:28:11.926825
- Title: Probing Conceptual Understanding of Large Visual-Language Models
- Title(参考訳): 大規模視覚言語モデルの概念的理解
- Authors: Madeline Chantry Schiappa and Michael Cogswell and Ajay Divakaran and
Yogesh Singh Rawat
- Abstract要約: 大規模視覚言語モデル(V+L)が視覚内容の概念的把握能力を持つか否かを検討する。
我々の調査は認知科学に基礎を置いており、V+Lモデルが人間の手で飾られた雪が有り得ないかどうかを判断するのに役立つ。
本研究は,クロスアテンションが概念的理解の学習に役立つこと,CNNがテクスチャやパターンに優れていること,トランスフォーマーが色や形状に優れていること,などの興味深い知見を明らかにする。
- 参考スコア(独自算出の注目度): 9.04838392876771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years large visual-language (V+L) models have achieved great
success in various downstream tasks. However, it is not well studied whether
these models have a conceptual grasp of the visual content. In this work we
focus on conceptual understanding of these large V+L models.To facilitate this
study, we propose novel benchmarking datasets for probing three different
aspects of content understanding, 1) relations, 2) composition and 3) context.
Our probes are grounded in cognitive science and help determine if a V+L model
can, for example, determine if ``snow garnished with a man'' is implausible, or
if it can identify beach furniture by knowing it is located on a beach. We
experimented with five different state-of-the-art V+L models and observe that
these models mostly fail to demonstrate a conceptual understanding. This study
reveals several interesting insights such as cross-attention helps learning
conceptual understanding, and that CNNs are better with texture and patterns,
while Transformers are better at color and shape. We further utilize some of
these insights and propose a baseline for improving performance by a simple
finetuning technique that rewards the three conceptual understanding measures
with promising initial results. We believe that the proposed benchmarks will
help the community assess and improve the conceptual understanding capabilities
of large V+L models.
- Abstract(参考訳): 近年、大規模な視覚言語モデル(v+l)が様々な下流タスクで大きな成功を収めている。
しかし、これらのモデルが視覚内容の概念的把握を持っているかどうかについては、よく研究されていない。
本研究では,これらの大規模V+Lモデルの概念的理解に着目し,コンテンツ理解の3つの異なる側面を探索するための新しいベンチマークデータセットを提案する。
1)関係性
2)構成及び
3) コンテキスト。
私たちのプローブは認知科学に基礎を置き、例えば、v+lモデルが`snow garnished with a man''' が目立たないかどうかを判断できるかどうか、あるいはビーチにあることを知ってビーチ家具を識別できるかどうかを判断するのに役立ちます。
我々は5種類の最先端V+Lモデルを実験し、これらのモデルが概念的理解をほとんど示さないことを観察した。
本研究は,クロスアテンションが概念的理解の学習に役立つこと,CNNがテクスチャやパターンに優れていること,トランスフォーマーが色や形状に優れていること,などの興味深い知見を明らかにする。
さらに,これらの知見のいくつかを活用し,3つの概念理解尺度と期待できる初期結果に報いる簡易微調整手法により,性能向上のためのベースラインを提案する。
提案したベンチマークは,大規模なV+Lモデルの概念理解能力の評価と改善に役立つと考えている。
関連論文リスト
- Learning Interpretable Concepts: Unifying Causal Representation Learning
and Foundation Models [51.43538150982291]
人間の解釈可能な概念をデータから学習する方法を研究する。
両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:23:59Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Unpacking Large Language Models with Conceptual Consistency [14.224799628694592]
本稿では,大言語モデルの関連する概念に対する理解を測定するために,概念整合性を提案する。
この新しい尺度は、概念的に関連する背景知識に関するクエリに対する応答がいかに一貫性があるかを明らかにすることで、モデルがいかにうまく機能するかを測定する。
論文 参考訳(メタデータ) (2022-09-29T20:55:57Z) - Inter-model Interpretability: Self-supervised Models as a Case Study [0.2578242050187029]
テキスト・インター・モデル・インタプリタビリティを導入するためのDissectと呼ばれる最近の解釈可能性技術を構築した。
我々は、学習概念の観点から、モデル間の近さを明らかにする学習概念埋め込み空間に、トップパフォーマンスの自己教師型モデル13を投影する。
この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。
論文 参考訳(メタデータ) (2022-07-24T22:50:18Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Deriving Explanation of Deep Visual Saliency Models [6.808418311272862]
我々は,その深部ニューラルネットワークに基づくサリエンシモデルから説明可能なサリエンシモデルを導出する手法を開発した。
我々は2つの最先端のディープ・サリエンシ・モデル、すなわちUNISALとMSI-Netを解釈として検討する。
我々はまた、サリエンシ予測のためのクロスコンカレントマルチスケール残差ブロックベースネットワーク(CMRNet)という独自のディープサリエンシモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:22:32Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。