Fugu-MT 論文翻訳(概要): Improving Concept Alignment in Vision-Language Concept Bottleneck Models

論文の概要: Improving Concept Alignment in Vision-Language Concept Bottleneck Models

arxiv url: http://arxiv.org/abs/2405.01825v2
Date: Sat, 24 Aug 2024 09:20:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 23:36:49.136937
Title: Improving Concept Alignment in Vision-Language Concept Bottleneck Models
Title（参考訳）: 視覚言語概念ボトルネックモデルにおける概念アライメントの改善
Authors: Nithish Muthuchamy Selvaraj, Xiaobao Guo, Adams Wai-Kin Kong, Alex Kot,
Abstract要約: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促すことでCBM構築を自動化する。 LLMによって生成されたものよりも、人間の専門家によって定義された概念でCBMを構築することが望まれる。
参考スコア（独自算出の注目度）: 9.228586820098723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Concept Bottleneck Models (CBM) map images to human-interpretable concepts before making class predictions. Recent approaches automate CBM construction by prompting Large Language Models (LLMs) to generate text concepts and employing Vision Language Models (VLMs) to score these concepts for CBM training. However, it is desired to build CBMs with concepts defined by human experts rather than LLM-generated ones to make them more trustworthy. In this work, we closely examine the faithfulness of VLM concept scores for such expert-defined concepts in domains like fine-grained bird species and animal classification. Our investigations reveal that VLMs like CLIP often struggle to correctly associate a concept with the corresponding visual input, despite achieving a high classification performance. This misalignment renders the resulting models difficult to interpret and less reliable. To address this issue, we propose a novel Contrastive Semi-Supervised (CSS) learning method that leverages a few labeled concept samples to activate truthful visual concepts and improve concept alignment in the CLIP model. Extensive experiments on three benchmark datasets demonstrate that our method significantly enhances both concept (+29.95) and classification (+3.84) accuracies yet requires only a fraction of human-annotated concept labels. To further improve the classification performance, we introduce a class-level intervention procedure for fine-grained classification problems that identifies the confounding classes and intervenes in their concept space to reduce errors.
Abstract（参考訳）: 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、クラス予測を行う前に、イメージを人間の解釈可能な概念にマッピングする。近年のアプローチでは、大規模言語モデル(LLM)にテキスト概念の生成を促し、視覚言語モデル(VLM)を用いてこれらの概念をCBM訓練に活用することにより、CBM構築を自動化する。しかし、LCMが生成したものよりも、人間の専門家が定義した概念でCBMを構築し、より信頼できるものにすることが望まれている。本研究では, 鳥の細粒化や動物分類などの領域において, 専門家が定義した概念に対するVLM概念スコアの忠実性について, 詳しく検討する。これらの結果から,CLIPのようなVLMは高い分類性能を達成しつつも,概念と対応する視覚入力を正しく関連付けるのに苦慮していることが明らかとなった。このミスアライメントは、結果のモデルを解釈しにくく、信頼性の低いものにする。この問題に対処するために,数個のラベル付き概念サンプルを活用して,真に視覚的な概念を活性化し,CLIPモデルにおける概念アライメントを改善する,新しいコントラシブ・セミスーパーバイザード(CSS)学習法を提案する。 3つのベンチマークデータセットに対する大規模な実験により,提案手法は概念(+29.95)と分類(+3.84)の両方を著しく向上させるが,人間に注釈付けされた概念ラベルのごく一部しか必要としないことが示された。分類性能をさらに向上するために,クラスレベルの介入手順を導入し,クラス間の相違を識別し,それらの概念空間に介入することで誤りを低減した。

関連論文リスト

Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。 ALBMは属性形式クラス固有の空間において概念を整理する。解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文参考訳（メタデータ） (2025-03-26T07:59:04Z)
Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models [25.84386438333865]
概念とクラスは複雑な関係の網を形成しており、それは劣化しやすく、経験を通じて保存および拡張する必要がある。本研究では,マルチモーダルな概念を用いて,学習可能なパラメータの数を増やすことなく分類を行う新しい手法である MuCIL を提案する。
論文参考訳（メタデータ） (2025-02-27T18:59:29Z)
V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer [19.177297480709512]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、イメージを人間の理解可能な概念に変換することによって、固有の解釈性を提供する。最近のアプローチでは、概念ボトルネックを構築するために、大きな言語モデルの知識を活用している。本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
論文参考訳（メタデータ） (2025-01-09T05:12:38Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts [8.028021897214238]
OpenCBMはオープン語彙の概念を持つ最初のCBMである。ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
論文参考訳（メタデータ） (2024-08-05T06:42:00Z)
Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文参考訳（メタデータ） (2024-07-19T17:50:11Z)
Concept Bottleneck Models Without Predefined Concepts [26.156636891713745]
入力に依存した概念選択機構を導入し、すべてのクラスで小さな概念のサブセットが使用されることを保証します。提案手法は, ダウンストリーム性能を改善し, ブラックボックスモデルの性能ギャップを狭めるものである。
論文参考訳（メタデータ） (2024-07-04T13:34:50Z)
Conceptual Codebook Learning for Vision-Language Models [27.68834532978939]
視覚言語モデル(VLM)の一般化能力向上のためのCodebook Learning(CoCoLe)を提案する。視覚概念をキーとして,概念的プロンプトを値として,概念的コードブックを学習する。この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。
論文参考訳（メタデータ） (2024-07-02T15:16:06Z)
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance [78.44823280247438]
新しい概念を学ぶ際に,意味的保存損失を利用して概念空間を明示的に制御する手法であるClassDiffusionを提案する。その単純さにもかかわらず、これはターゲット概念を微調整する際のセマンティックドリフトを避けるのに役立つ。 CLIP-T測定値の非効率な評価に対して,BLIP2-T測定値を導入する。
論文参考訳（メタデータ） (2024-05-27T17:50:10Z)
Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文参考訳（メタデータ） (2024-05-02T17:59:01Z)
ConcEPT: Concept-Enhanced Pre-Training for Language Models [57.778895980999124]
ConcEPTは、概念知識を事前訓練された言語モデルに注入することを目的としている。これは、事前訓練されたコンテキストで言及されたエンティティの概念を予測するために、外部エンティティの概念予測を利用する。実験の結果,ConcEPTは概念強化事前学習により概念知識を向上することがわかった。
論文参考訳（メタデータ） (2024-01-11T05:05:01Z)
Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。 CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文参考訳（メタデータ） (2023-11-18T15:50:07Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Concept Bottleneck Model with Additional Unsupervised Concepts [0.5939410304994348]
概念ボトルネックモデル(CBM)に基づく新しい解釈可能なモデルを提案する。 CBMは概念ラベルを使用して、中間層を追加の可視層としてトレーニングする。これら2つの概念をシームレスにトレーニングし,計算量を削減することにより,教師付き概念と教師なし概念を同時に得ることができる。
論文参考訳（メタデータ） (2022-02-03T08:30:51Z)
Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文参考訳（メタデータ） (2020-07-14T22:04:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。