論文の概要: V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer
- arxiv url: http://arxiv.org/abs/2501.04975v1
- Date: Thu, 09 Jan 2025 05:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:14.462782
- Title: V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer
- Title(参考訳): V2C-CBM:ビジョン・ツー・コンセプション・トケナイザを用いたコンセプト・ボトムネックの構築
- Authors: Hangzhou He, Lei Zhu, Xinliang Zhang, Shuang Zeng, Qian Chen, Yanye Lu,
- Abstract要約: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、イメージを人間の理解可能な概念に変換することによって、固有の解釈性を提供する。
最近のアプローチでは、概念ボトルネックを構築するために、大きな言語モデルの知識を活用している。
本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
- 参考スコア(独自算出の注目度): 19.177297480709512
- License:
- Abstract: Concept Bottleneck Models (CBMs) offer inherent interpretability by initially translating images into human-comprehensible concepts, followed by a linear combination of these concepts for classification. However, the annotation of concepts for visual recognition tasks requires extensive expert knowledge and labor, constraining the broad adoption of CBMs. Recent approaches have leveraged the knowledge of large language models to construct concept bottlenecks, with multimodal models like CLIP subsequently mapping image features into the concept feature space for classification. Despite this, the concepts produced by language models can be verbose and may introduce non-visual attributes, which hurts accuracy and interpretability. In this study, we investigate to avoid these issues by constructing CBMs directly from multimodal models. To this end, we adopt common words as base concept vocabulary and leverage auxiliary unlabeled images to construct a Vision-to-Concept (V2C) tokenizer that can explicitly quantize images into their most relevant visual concepts, thus creating a vision-oriented concept bottleneck tightly coupled with the multimodal model. This leads to our V2C-CBM which is training efficient and interpretable with high accuracy. Our V2C-CBM has matched or outperformed LLM-supervised CBMs on various visual classification benchmarks, validating the efficacy of our approach.
- Abstract(参考訳): 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、最初はイメージを人間の理解可能な概念に翻訳し、その後に分類のためのこれらの概念の線形結合を提供する。
しかし、視覚認識タスクの概念のアノテーションは、幅広い専門知識と労力を必要とし、CBMの広範な採用を制限している。
近年のアプローチでは、概念ボトルネックを構築するために、大規模な言語モデルの知識を活用しており、CLIPのようなマルチモーダルモデルでは、画像の特徴を分類のための概念機能空間にマッピングしている。
それにもかかわらず、言語モデルによって生み出された概念は冗長であり、正確さと解釈性を損なう非視覚的属性を導入する可能性がある。
本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
この目的のために、我々は共通語を基本概念語彙として採用し、補助的未ラベル画像を活用して、視覚概念を最も関連性の高い概念に明示的に定量化できるビジョン・トゥ・コンセプション(V2C)トークンライザを構築する。
これにより、V2C-CBMは、訓練を効率よく、高精度に解釈できるようになりました。
我々のV2C-CBMは、様々な視覚分類ベンチマークにおいて、LCMが監督するCBMに適合または優れており、我々のアプローチの有効性が検証されている。
関連論文リスト
- Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts [8.028021897214238]
OpenCBMはオープン語彙の概念を持つ最初のCBMである。
ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
論文 参考訳(メタデータ) (2024-08-05T06:42:00Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文 参考訳(メタデータ) (2024-06-12T10:48:53Z) - Improving Concept Alignment in Vision-Language Concept Bottleneck Models [9.228586820098723]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。
近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促すことでCBM構築を自動化する。
LLMによって生成されたものよりも、人間の専門家によって定義された概念でCBMを構築することが望まれる。
論文 参考訳(メタデータ) (2024-05-03T03:02:00Z) - Incremental Residual Concept Bottleneck Models [29.388549499546556]
Concept Bottleneck Models (CBM) は、ディープニューラルネットワークによって抽出されたブラックボックスの視覚表現を、解釈可能な概念のセットにマッピングする。
本稿では,概念完全性の課題を解決するために,インクリメンタル・Residual Concept Bottleneck Model (Res-CBM)を提案する。
提案手法は,任意のCBMの性能向上を目的としたポストホック処理法として,ユーザ定義の概念バンクに適用できる。
論文 参考訳(メタデータ) (2024-04-13T12:02:19Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。
画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。
人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文 参考訳(メタデータ) (2023-12-16T11:06:11Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。