Fugu-MT 論文翻訳(概要): Robust Semantic Interpretability: Revisiting Concept Activation Vectors

論文の概要: Robust Semantic Interpretability: Revisiting Concept Activation Vectors

arxiv url: http://arxiv.org/abs/2104.02768v1
Date: Tue, 6 Apr 2021 20:14:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-08 13:07:31.570189
Title: Robust Semantic Interpretability: Revisiting Concept Activation Vectors
Title（参考訳）: robust semantic interpretability: revisiting concept activation vectors
Authors: Jacob Pfau, Albert T. Young, Jerome Wei, Maria L. Wei, Michael J. Keiser
Abstract要約: 画像分類のための解釈可能性手法は、モデルが系統的に偏りがあるか、あるいは人間と同じ手掛かりに従うかを明らかにすることを試みる。提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interpretability methods for image classification assess model trustworthiness by attempting to expose whether the model is systematically biased or attending to the same cues as a human would. Saliency methods for feature attribution dominate the interpretability literature, but these methods do not address semantic concepts such as the textures, colors, or genders of objects within an image. Our proposed Robust Concept Activation Vectors (RCAV) quantifies the effects of semantic concepts on individual model predictions and on model behavior as a whole. RCAV calculates a concept gradient and takes a gradient ascent step to assess model sensitivity to the given concept. By generalizing previous work on concept activation vectors to account for model non-linearity, and by introducing stricter hypothesis testing, we show that RCAV yields interpretations which are both more accurate at the image level and robust at the dataset level. RCAV, like saliency methods, supports the interpretation of individual predictions. To evaluate the practical use of interpretability methods as debugging tools, and the scientific use of interpretability methods for identifying inductive biases (e.g. texture over shape), we construct two datasets and accompanying metrics for realistic benchmarking of semantic interpretability methods. Our benchmarks expose the importance of counterfactual augmentation and negative controls for quantifying the practical usability of interpretability methods.
Abstract（参考訳）: 画像分類のための解釈可能性手法は、モデルが系統的に偏っているか、あるいは人間が望むのと同じ手がかりに従うかを明らかにすることによって、モデルの信頼性を評価する。特徴属性の正当性は解釈可能性の文献において支配的であるが、これらの手法は画像内の物体のテクスチャ、色、性別といった意味概念に対処しない。提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。 RCAVは、概念勾配を計算し、与えられた概念に対するモデル感度を評価するために勾配上昇ステップを取る。モデル非線型性を考慮した概念活性化ベクトルに関する以前の研究を一般化し、より厳密な仮説テストを導入することにより、RCAVは画像レベルでより正確かつデータセットレベルで堅牢な解釈を得られることを示す。 RCAVは、サリエンシ法と同様に、個々の予測の解釈をサポートする。デバッグツールとしての解釈可能性手法の実用化および誘導バイアスを特定するための解釈可能性手法の科学的利用(例えば、)を評価する。形態上のテクスチャ)は、2つのデータセットを構築し、セマンティック解釈可能性メソッドの現実的なベンチマークのためのメトリクスを伴います。本ベンチマークでは, 解釈可能性手法の実用性を評価するために, 対実的拡張と負の制御の重要性を明らかにする。

関連論文リスト

Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文参考訳（メタデータ） (2025-07-07T06:26:04Z)
Enhancing Performance of Explainable AI Models with Constrained Concept Refinement [10.241134756773228]
正確性と解釈可能性のトレードオフは、機械学習(ML)における長年の課題である。本稿では,概念表現における偏差の影響について検討し,これらの効果を緩和するための新しい枠組みを提案する。従来の説明可能な手法と比較して,提案手法は様々な大規模ベンチマークにおいてモデル解釈可能性を維持しながら予測精度を向上するだけでなく,計算コストを大幅に削減する。
論文参考訳（メタデータ） (2025-02-10T18:53:15Z)
Decompose the model: Mechanistic interpretability in image models with Generalized Integrated Gradients (GIG) [24.02036048242832]
本稿では,すべての中間層を経由した入力から,データセット全体の最終的な出力まで,経路全体をトレースする新しい手法を提案する。本稿では,PFV(Pointwise Feature Vectors)とERF(Effective Receptive Fields)を用いて,モデル埋め込みを解釈可能な概念ベクトルに分解する。そして,汎用統合勾配(GIG)を用いて概念ベクトル間の関係を計算し,モデル行動の包括的,データセットワイドな解析を可能にする。
論文参考訳（メタデータ） (2024-09-03T05:19:35Z)
Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。 ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文参考訳（メタデータ） (2024-06-20T14:04:53Z)
I Bet You Did Not Mean That: Testing Semantic Importance via Betting [8.909843275476264]
我々は、条件付き独立性を用いて不透明モデルの予測に対する意味論的概念のグローバル(すなわち人口以上)とローカル(すなわちサンプル)の統計的重要性を定式化する。我々は、シーケンシャルなカーネル化独立テストという最近の考え方を用いて、概念間の重要度を誘導し、我々のフレームワークの有効性と柔軟性を示す。
論文参考訳（メタデータ） (2024-05-29T14:51:41Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文参考訳（メタデータ） (2023-07-13T17:21:54Z)
Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文参考訳（メタデータ） (2023-07-06T15:19:53Z)
Fixing confirmation bias in feature attribution methods via semantic match [4.733072355085082]
モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である,と我々は主張する。これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。
論文参考訳（メタデータ） (2023-07-03T09:50:08Z)
Unsupervised Interpretable Basis Extraction for Concept-Based Visual Explanations [53.973055975918655]
提案手法を用いて抽出したベースに変換すると,中間層表現がより解釈可能であることを示す。提案手法は,提案手法を教師付きアプローチから抽出したベースと,教師付き手法から抽出したベースを比較した結果,教師なし手法は教師付き手法の限界を構成する強みを有し,今後の研究の方向性を示す。
論文参考訳（メタデータ） (2023-03-19T00:37:19Z)
Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。 6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文参考訳（メタデータ） (2022-05-22T03:24:45Z)
Navigating Neural Space: Revisiting Concept Activation Vectors to Overcome Directional Divergence [14.071950294953005]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文参考訳（メタデータ） (2022-02-07T19:40:20Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
A comprehensive comparative evaluation and analysis of Distributional Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文参考訳（メタデータ） (2021-05-20T15:18:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。