論文の概要: Enhancing Pre-trained Representation Classifiability can Boost its Interpretability
- arxiv url: http://arxiv.org/abs/2510.24105v1
- Date: Tue, 28 Oct 2025 06:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.812326
- Title: Enhancing Pre-trained Representation Classifiability can Boost its Interpretability
- Title(参考訳): 事前訓練された表現のクラス化能力の強化は解釈可能性を高める
- Authors: Shufan Shen, Zhaobo Qi, Junshu Sun, Qingming Huang, Qi Tian, Shuhui Wang,
- Abstract要約: 表現内の解釈可能な意味の比率との相関を利用して、表現解釈可能性の定量化を行う。
Inherent Interpretability Score(IIS)を提案し、情報損失を評価し、解釈可能なセマンティクスの比率を測定し、表現解釈可能性の定量化を行う。
- 参考スコア(独自算出の注目度): 112.296393156262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The visual representation of a pre-trained model prioritizes the classifiability on downstream tasks, while the widespread applications for pre-trained visual models have posed new requirements for representation interpretability. However, it remains unclear whether the pre-trained representations can achieve high interpretability and classifiability simultaneously. To answer this question, we quantify the representation interpretability by leveraging its correlation with the ratio of interpretable semantics within the representations. Given the pre-trained representations, only the interpretable semantics can be captured by interpretations, whereas the uninterpretable part leads to information loss. Based on this fact, we propose the Inherent Interpretability Score (IIS) that evaluates the information loss, measures the ratio of interpretable semantics, and quantifies the representation interpretability. In the evaluation of the representation interpretability with different classifiability, we surprisingly discover that the interpretability and classifiability are positively correlated, i.e., representations with higher classifiability provide more interpretable semantics that can be captured in the interpretations. This observation further supports two benefits to the pre-trained representations. First, the classifiability of representations can be further improved by fine-tuning with interpretability maximization. Second, with the classifiability improvement for the representations, we obtain predictions based on their interpretations with less accuracy degradation. The discovered positive correlation and corresponding applications show that practitioners can unify the improvements in interpretability and classifiability for pre-trained vision models. Codes are available at https://github.com/ssfgunner/IIS.
- Abstract(参考訳): 事前学習されたモデルの視覚的表現は、下流タスクにおける分類可能性の優先順位を付け、事前学習された視覚モデルに対する広範な応用は、表現の解釈可能性に対する新しい要件を提示している。
しかし、事前学習された表現が高い解釈可能性と分類可能性を同時に達成できるかどうかは不明である。
この疑問に答えるために、表現内の解釈可能な意味の比率との相関を利用して、表現解釈可能性の定量化を行う。
事前訓練された表現が与えられた場合、解釈可能な意味論のみが解釈によってキャプチャされるが、解釈できない部分は情報損失につながる。
この事実に基づいて、情報損失を評価し、解釈可能なセマンティクスの比率を測定し、表現解釈可能性の定量化を行うIIS(Inherent Interpretability Score)を提案する。
異なる分類可能性を持つ表現解釈可能性の評価において、解釈可能性と分類可能性が正の相関関係にあること、すなわち、高い分類可能性を持つ表現が解釈においてより解釈可能な意味論を提供することを発見した。
この観察は、事前訓練された表現に対する2つの利点をさらに支持する。
まず、解釈可能性の最大化を伴う微調整により、表現のクラス化可能性をさらに改善することができる。
第二に、表現の分類可能性の向上により、より精度の低い解釈に基づく予測が得られる。
検出された肯定的相関とそれに対応する応用は、事前学習された視覚モデルに対する解釈可能性と分類可能性の改善を統一できることを示す。
コードはhttps://github.com/ssfgunner/IIS.comで入手できる。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Learning Interpretable Fair Representations [5.660855954377282]
本稿では,表現学習過程において解釈可能な公正表現を学習するためのフレームワークを提案する。
我々の表現は解釈可能であることに加えて、下流分類タスクにおいてわずかに精度が高く、より公平な結果が得られる。
論文 参考訳(メタデータ) (2024-06-24T15:01:05Z) - Intrinsic User-Centric Interpretability through Global Mixture of Experts [31.738009841932374]
InterpretCCは、人間の理解の容易さと忠実さの説明を最適化する、本質的に解釈可能なニューラルネットワークのファミリーである。
本報告では,InterpretCCの説明は,他の本質的な解釈可能なアプローチよりも,行動性や有用性が高いことを示す。
論文 参考訳(メタデータ) (2024-02-05T11:55:50Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。
具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文 参考訳(メタデータ) (2022-05-23T17:38:30Z) - Desiderata for Representation Learning: A Causal Perspective [104.3711759578494]
我々は表現学習の因果的視点を採り、非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)を定式化する。
これは、関心のデシダータを満たす程度を計算可能なメトリクスで評価し、単一の観測データセットから不純物や不整合表現を学習する。
論文 参考訳(メタデータ) (2021-09-08T17:33:54Z) - Interpretable Representations in Explainable AI: From Theory to Practice [7.031336702345381]
解釈可能な表現は、ブラックボックス予測システムをターゲットにした多くの説明器のバックボーンである。
人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。
論文 参考訳(メタデータ) (2020-08-16T21:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。