論文の概要: Concept-based Analysis of Neural Networks via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.19837v1
- Date: Thu, 28 Mar 2024 21:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:13:56.515243
- Title: Concept-based Analysis of Neural Networks via Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルによるニューラルネットワークの概念に基づく解析
- Authors: Ravi Mangal, Nina Narodytska, Divya Gopinath, Boyue Caroline Hu, Anirban Roy, Susmit Jha, Corina Pasareanu,
- Abstract要約: 我々は、視覚モデルについて推論できるレンズとして、新しいマルチモーダル、ヴィジュアル言語、ファンデーションモデル(VLM)を活用することを提案する。
これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $textttCon_textttspec について説明する。
textttCon_textttspec$仕様を定義し、正式にチェックするには、視覚モデルの自然言語特性をエンコードし、効率的にチェックする手段を提供するVLMを利用する。
- 参考スコア(独自算出の注目度): 17.406352568156542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formal analysis of vision-based deep neural networks (DNNs) is highly desirable but it is very challenging due to the difficulty of expressing formal specifications for vision tasks and the lack of efficient verification procedures. In this paper, we propose to leverage emerging multimodal, vision-language, foundation models (VLMs) as a lens through which we can reason about vision models. VLMs have been trained on a large body of images accompanied by their textual description, and are thus implicitly aware of high-level, human-understandable concepts describing the images. We describe a logical specification language $\texttt{Con}_{\texttt{spec}}$ designed to facilitate writing specifications in terms of these concepts. To define and formally check $\texttt{Con}_{\texttt{spec}}$ specifications, we leverage a VLM, which provides a means to encode and efficiently check natural-language properties of vision models. We demonstrate our techniques on a ResNet-based classifier trained on the RIVAL-10 dataset leveraging CLIP as the multimodal model.
- Abstract(参考訳): 視覚に基づくディープニューラルネットワーク(DNN)の形式解析は非常に望ましいが、視覚タスクの形式仕様の表現が困難であり、効率的な検証手順が欠如しているため、非常に難しい。
本稿では,新たなマルチモーダル,視覚言語,基礎モデル(VLM)をレンズとして活用することを提案する。
VLMは、テキストによる記述を伴う大量の画像に基づいて訓練されており、画像を記述する高レベルで人間に理解可能な概念を暗黙的に認識している。
これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $\textt{Con}_{\textt{spec}}$ を記述します。
仕様を定義し、正式にチェックするために、VLMを活用し、視覚モデルの自然言語特性をエンコードし、効率的にチェックする手段を提供する。
マルチモーダルモデルとしてCLIPを利用するRIVAL-10データセットに基づいてトレーニングされたResNetベースの分類器について,本手法を実証する。
関連論文リスト
- Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models [2.0718016474717196]
統合ビジョンと言語モデル(VLM)は、機械学習研究コミュニティ内のブラックボックスと見なされることが多い。
本稿では、画像領域と対応するテキストセグメント間の特定の関連をマッピングする画像テキスト整列人間の視覚的注意データセットを提案する。
次に、VLモデルによって生成された内部のヒートマップとこのデータセットを比較し、モデルの決定プロセスを分析し、よりよく理解できるようにします。
論文 参考訳(メタデータ) (2024-10-06T20:11:53Z) - How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model? [2.3993515715868714]
本稿では,視覚言語モデル(VLM)に好適な画像分布を特定するための,新しい一般化可能な手法を提案する。
これを異なる3次元オブジェクトのレンダリングタイプに適用することにより、複雑な構造の正確な解釈を必要とする様々な領域で有効性を示す。
特殊なドメインにおけるベンチマークの欠如を解決するために,CAD関連視覚質問応答タスク上でVLMを評価するための新しいデータセットであるCAD-VQAを導入する。
論文 参考訳(メタデータ) (2024-09-03T19:26:13Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。