論文の概要: Leveraging Scale-aware Representations for improved Concept-Representation Alignment in ViTs
- arxiv url: http://arxiv.org/abs/2501.09221v1
- Date: Thu, 16 Jan 2025 00:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:14.544428
- Title: Leveraging Scale-aware Representations for improved Concept-Representation Alignment in ViTs
- Title(参考訳): ViTにおける概念表現アライメント改善のためのスケールアウェア表現の活用
- Authors: Sanchit Sinha, Guangzhi Xiong, Aidong Zhang,
- Abstract要約: 概念表現アライメントモジュール(CRAM)は、多スケールの特徴ピラミッドとパッチ表現から、スケールと位置認識の両方の表現を学習する。
CRAMはさらに、これらの表現をアテンションマトリックスを通じて概念アノテーションと整合させる。
提案したCRAMモジュールは、ViTアーキテクチャの予測性能を改善し、正確で堅牢な概念説明を提供する。
- 参考スコア(独自算出の注目度): 29.932706137805713
- License:
- Abstract: Vision Transformers (ViTs) are increasingly being adopted in various sensitive vision applications - like medical diagnosis, facial recognition, etc. To improve the interpretability of such models, many approaches attempt to forward-align them with carefully annotated abstract, human-understandable semantic entities - concepts. Concepts provide global rationales to the model predictions and can be quickly understood/intervened on by domain experts. Most current research focuses on designing model-agnostic, plug-and-play generic concept-based explainability modules that do not incorporate the inner workings of foundation models (e.g., inductive biases, scale invariance, etc.) during training. To alleviate this issue for ViTs, in this paper, we propose a novel Concept Representation Alignment Module (CRAM) which learns both scale and position-aware representations from multi-scale feature pyramids and patch representations respectively. CRAM further aligns these representations with concept annotations through an attention matrix. The proposed CRAM module improves the predictive performance of ViT architectures and also provides accurate and robust concept explanations as demonstrated on five datasets - including three widely used benchmarks (CUB, Pascal APY, Concept-MNIST) and 2 real-world datasets (AWA2, KITS).
- Abstract(参考訳): ヴィジュアルトランスフォーマー(ViT)は、医療診断や顔認識など、さまざまな敏感な視覚アプリケーションで採用されている。
このようなモデルの解釈可能性を改善するために、多くのアプローチは、注意深く注釈付けされた抽象的、人間に理解可能なセマンティックエンティティーの概念でそれらを前方に調整しようと試みている。
概念はモデル予測に大まかな根拠を与え、ドメインの専門家によって素早く理解され、興味を持てます。
最近の研究は、トレーニング中に基礎モデルの内部動作(例えば、帰納的バイアス、スケール不変性など)を組み込まない、モデルに依存しない汎用的な概念ベースの説明可能性モジュールを設計することに焦点を当てている。
本稿では,この課題を解決するために,マルチスケールの特徴ピラミッドとパッチ表現から,スケールと位置認識の両方の表現を学習する概念表現アライメントモジュール(CRAM)を提案する。
CRAMはさらに、これらの表現をアテンションマトリックスを通じて概念アノテーションと整合させる。
提案されたCRAMモジュールは、ViTアーキテクチャの予測性能を改善し、また、広く使用されている3つのベンチマーク(CUB、Pascal APY、Concept-MNIST)と2つの実世界のデータセット(AWA2、KITS)を含む5つのデータセットで示されているように、正確で堅牢な概念説明を提供する。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models [6.747023750015197]
本稿では, 信頼度, 安定度, 疎度, マルチレベル構造, パーシモニーの5つのViTを説明するデシラタを提案する。
PACE(ProbAbilistic Concept Explainers)と呼ばれる変分ベイズの説明フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-18T14:17:57Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。
CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。
本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文 参考訳(メタデータ) (2023-11-18T15:50:07Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。