論文の概要: Cross-Modal Conceptualization in Bottleneck Models
- arxiv url: http://arxiv.org/abs/2310.14805v2
- Date: Sun, 17 Dec 2023 09:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:59:37.455155
- Title: Cross-Modal Conceptualization in Bottleneck Models
- Title(参考訳): ボトルネックモデルにおけるクロスモーダル概念化
- Authors: Danis Alukaev, Semen Kiselev, Ilya Pershin, Bulat Ibragimov, Vladimir
Ivanov, Alexey Kornaev, Ivan Titov
- Abstract要約: 概念ボトルネックモデル(CBM)は、訓練例(例えば、x線画像)が高レベルの概念で注釈付けされていると仮定する。
このアプローチでは、より穏健な仮定を採用し、代わりに、訓練中の画像に付随するテキスト記述を用いて概念の導出を誘導する。
我々のクロスモーダルアプローチは,概念を離散潜在変数として扱い,(1)ラベルの予測,(2)画像とテキストの両方から確実に予測できる概念を促進する。
- 参考スコア(独自算出の注目度): 21.2577097041883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept Bottleneck Models (CBMs) assume that training examples (e.g., x-ray
images) are annotated with high-level concepts (e.g., types of abnormalities),
and perform classification by first predicting the concepts, followed by
predicting the label relying on these concepts. The main difficulty in using
CBMs comes from having to choose concepts that are predictive of the label and
then having to label training examples with these concepts. In our approach, we
adopt a more moderate assumption and instead use text descriptions (e.g.,
radiology reports), accompanying the images in training, to guide the induction
of concepts. Our cross-modal approach treats concepts as discrete latent
variables and promotes concepts that (1) are predictive of the label, and (2)
can be predicted reliably from both the image and text. Through experiments
conducted on datasets ranging from synthetic datasets (e.g., synthetic images
with generated descriptions) to realistic medical imaging datasets, we
demonstrate that cross-modal learning encourages the induction of interpretable
concepts while also facilitating disentanglement. Our results also suggest that
this guidance leads to increased robustness by suppressing the reliance on
shortcut features.
- Abstract(参考訳): 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、訓練例(例えば、X線画像)は高レベルな概念(例えば、異常の種類)でアノテートされ、まず概念を予測し、次にこれらの概念に依存するラベルを予測する。
CBMを使うことの最大の難しさは、ラベルの予測可能な概念を選択し、これらの概念でトレーニング例をラベル付けすることにある。
このアプローチでは、より穏健な仮定を採用し、代わりに、訓練中の画像に付随するテキスト記述(例えば、放射線学レポート)を使用して概念の導出を導く。
我々のクロスモーダルアプローチは,概念を離散潜在変数として扱い,(1)ラベルの予測,(2)画像とテキストの両方から確実に予測できる概念を促進する。
合成データセット(例えば、生成した記述を伴う合成画像)から現実的な医用画像データセット(英語版)までのデータセットで実施された実験を通じて、クロスモーダル学習は解釈可能な概念の誘導を促進するとともに、解離を促進することを実証する。
また,このガイダンスはショートカット機能への依存を抑えることで,堅牢性の向上につながることが示唆された。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Knowledge graphs for empirical concept retrieval [1.06378109904813]
概念に基づく説明可能なAIは、あるユーザの前提における複雑なモデルの理解を改善するツールとして期待されている。
本稿では,テキスト領域と画像領域の両方でユーザ主導のデータ収集を行うワークフローを提案する。
我々は,概念アクティベーションベクトル(CAV)と概念アクティベーション領域(CAR)の2つの概念ベース説明可能性手法を用いて,検索した概念データセットをテストする。
論文 参考訳(メタデータ) (2024-04-10T13:47:22Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level
Image-Concept Alignment [4.861768967055006]
本稿では, 医療画像と臨床関連概念を多層的に意味的に整合させるマルチモーダル説明型疾患診断フレームワークを提案する。
提案手法は, モデル解釈可能性を維持しながら, 概念検出と疾患診断に高い性能とラベル効率を実現する。
論文 参考訳(メタデータ) (2024-01-16T17:45:01Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Improving Image Captioning via Predicting Structured Concepts [46.88858655641866]
本研究では,概念とその構造を予測するための構造的概念予測器を提案し,それをキャプションに統合する。
我々は、単語依存によって駆動される概念関係を記述するために、重み付きグラフ畳み込みネットワーク(W-GCN)を設計する。
提案手法は,概念間の潜在的な関係を捉え,異なる概念を識別的に学習することにより,画像キャプションの継承を容易にする。
論文 参考訳(メタデータ) (2023-11-14T15:01:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。