論文の概要: Leveraging Scale-aware Representations for improved Concept-Representation Alignment in ViTs
- arxiv url: http://arxiv.org/abs/2501.09221v1
- Date: Thu, 16 Jan 2025 00:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:14.544428
- Title: Leveraging Scale-aware Representations for improved Concept-Representation Alignment in ViTs
- Title(参考訳): ViTにおける概念表現アライメント改善のためのスケールアウェア表現の活用
- Authors: Sanchit Sinha, Guangzhi Xiong, Aidong Zhang,
- Abstract要約: 概念表現アライメントモジュール(CRAM)は、多スケールの特徴ピラミッドとパッチ表現から、スケールと位置認識の両方の表現を学習する。
CRAMはさらに、これらの表現をアテンションマトリックスを通じて概念アノテーションと整合させる。
提案したCRAMモジュールは、ViTアーキテクチャの予測性能を改善し、正確で堅牢な概念説明を提供する。
- 参考スコア(独自算出の注目度): 29.932706137805713
- License:
- Abstract: Vision Transformers (ViTs) are increasingly being adopted in various sensitive vision applications - like medical diagnosis, facial recognition, etc. To improve the interpretability of such models, many approaches attempt to forward-align them with carefully annotated abstract, human-understandable semantic entities - concepts. Concepts provide global rationales to the model predictions and can be quickly understood/intervened on by domain experts. Most current research focuses on designing model-agnostic, plug-and-play generic concept-based explainability modules that do not incorporate the inner workings of foundation models (e.g., inductive biases, scale invariance, etc.) during training. To alleviate this issue for ViTs, in this paper, we propose a novel Concept Representation Alignment Module (CRAM) which learns both scale and position-aware representations from multi-scale feature pyramids and patch representations respectively. CRAM further aligns these representations with concept annotations through an attention matrix. The proposed CRAM module improves the predictive performance of ViT architectures and also provides accurate and robust concept explanations as demonstrated on five datasets - including three widely used benchmarks (CUB, Pascal APY, Concept-MNIST) and 2 real-world datasets (AWA2, KITS).
- Abstract(参考訳): ヴィジュアルトランスフォーマー(ViT)は、医療診断や顔認識など、さまざまな敏感な視覚アプリケーションで採用されている。
このようなモデルの解釈可能性を改善するために、多くのアプローチは、注意深く注釈付けされた抽象的、人間に理解可能なセマンティックエンティティーの概念でそれらを前方に調整しようと試みている。
概念はモデル予測に大まかな根拠を与え、ドメインの専門家によって素早く理解され、興味を持てます。
最近の研究は、トレーニング中に基礎モデルの内部動作(例えば、帰納的バイアス、スケール不変性など)を組み込まない、モデルに依存しない汎用的な概念ベースの説明可能性モジュールを設計することに焦点を当てている。
本稿では,この課題を解決するために,マルチスケールの特徴ピラミッドとパッチ表現から,スケールと位置認識の両方の表現を学習する概念表現アライメントモジュール(CRAM)を提案する。
CRAMはさらに、これらの表現をアテンションマトリックスを通じて概念アノテーションと整合させる。
提案されたCRAMモジュールは、ViTアーキテクチャの予測性能を改善し、また、広く使用されている3つのベンチマーク(CUB、Pascal APY、Concept-MNIST)と2つの実世界のデータセット(AWA2、KITS)を含む5つのデータセットで示されているように、正確で堅牢な概念説明を提供する。
関連論文リスト
- Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models [6.747023750015197]
本稿では, 信頼度, 安定度, 疎度, マルチレベル構造, パーシモニーの5つのViTを説明するデシラタを提案する。
PACE(ProbAbilistic Concept Explainers)と呼ばれる変分ベイズの説明フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-18T14:17:57Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。