論文の概要: Contrast-CAT: Contrasting Activations for Enhanced Interpretability in Transformer-based Text Classifiers
- arxiv url: http://arxiv.org/abs/2507.21186v1
- Date: Sun, 27 Jul 2025 11:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.053668
- Title: Contrast-CAT: Contrasting Activations for Enhanced Interpretability in Transformer-based Text Classifiers
- Title(参考訳): Contrast-CAT: Transformer-based Text Classifier における解釈可能性向上のためのアクティベーションの対比
- Authors: Sungmin Han, Jeonghyun Lee, Sangkyun Lee,
- Abstract要約: 本稿では,新しいアクティベーションコントラストに基づく属性法であるContrast-CATを提案する。
クラス非関連機能をフィルタリングすることでトークンレベルの属性を洗練します。
実験の結果、Contrast-CATは最先端の手法よりも一貫して優れていたことが確認された。
- 参考スコア(独自算出の注目度): 7.373617024876726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have profoundly influenced AI research, but explaining their decisions remains challenging -- even for relatively simpler tasks such as classification -- which hinders trust and safe deployment in real-world applications. Although activation-based attribution methods effectively explain transformer-based text classification models, our findings reveal that these methods can be undermined by class-irrelevant features within activations, leading to less reliable interpretations. To address this limitation, we propose Contrast-CAT, a novel activation contrast-based attribution method that refines token-level attributions by filtering out class-irrelevant features. By contrasting the activations of an input sequence with reference activations, Contrast-CAT generates clearer and more faithful attribution maps. Experimental results across various datasets and models confirm that Contrast-CAT consistently outperforms state-of-the-art methods. Notably, under the MoRF setting, it achieves average improvements of x1.30 in AOPC and x2.25 in LOdds over the most competing methods, demonstrating its effectiveness in enhancing interpretability for transformer-based text classification.
- Abstract(参考訳): トランスフォーマーはAI研究に大きな影響を与えてきたが、それらの決定を説明することは、分類のような比較的単純なタスクであっても、現実のアプリケーションにおける信頼性と安全なデプロイを妨げる。
アクティベーションに基づく帰属法は, トランスフォーマーに基づくテキスト分類モデルを効果的に説明できるが, それらの手法はアクティベーション内でのクラス非関連の特徴によって損なわれる可能性があり, 信頼性の低い解釈が導かれる。
この制限に対処するため,Contrast-CATを提案する。Contrast-CATは,クラス非関連特徴をフィルタリングすることでトークンレベルの属性を洗練する,新しいアクティベーションコントラストベースの属性手法である。
入力シーケンスのアクティベートと参照アクティベーションとの対比により、Contrast-CATはより明確で忠実な属性マップを生成する。
さまざまなデータセットやモデルにわたる実験結果から、Contrast-CATは一貫して最先端の手法よりも優れています。
特に、MoRF設定の下では、最も競合する方法よりもAOPCのx1.30とLOddsのx2.25の平均的な改善を実現し、トランスフォーマーベースのテキスト分類の解釈可能性を高める効果を示す。
関連論文リスト
- Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Towards Robust Few-Shot Text Classification Using Transformer Architectures and Dual Loss Strategies [6.78820305740543]
本稿では,適応的な微調整,コントラスト学習,正規化最適化を組み合わせ,トランスフォーマーに基づくモデルの分類性能を向上させる戦略を提案する。
FewRel 2.0データセットの実験によると、T5-small、DeBERTa-v3、RoBERTa-baseは、数ショットタスクでうまく機能している。
論文 参考訳(メタデータ) (2025-05-09T15:54:08Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers [0.0]
BERTテキスト分類器の逆実説明を生成する5つの方法を評価する。
確立されたホワイトボックス置換ベースのメソッドは、分類器の出力を変更する有効な偽物を生成するのに効果的である。
大規模言語モデル(LLM)に基づく新しい手法は、自然言語および言語学的に妥当なテキスト偽造物を生成するのに優れている。
論文 参考訳(メタデータ) (2024-11-04T22:01:52Z) - Enhancing cross-domain detection: adaptive class-aware contrastive
transformer [15.666766743738531]
対象領域の不十分なラベルは、クラス不均衡とモデル性能劣化の問題を悪化させる。
逆学習と平均教師フレームワークに基づくクラス対応クロスドメイン検出変換器を提案する。
論文 参考訳(メタデータ) (2024-01-24T07:11:05Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Can Transformers be Strong Treatment Effect Estimators? [86.32484218657166]
本研究では,様々な処理効果推定問題に対処するために,Transformerアーキテクチャに基づく汎用フレームワークを開発する。
本手法は, 離散的, 連続的, 構造的, あるいは服用関連治療に応用される。
Transformers as Treatment Effect Estimator (TransTEE) を用いて行った実験は、これらの誘導バイアスが因果効果を推定する研究で発生する推定問題やデータセットの種類にも有効であることを示した。
論文 参考訳(メタデータ) (2022-02-02T23:56:42Z) - Diversity Enhanced Active Learning with Strictly Proper Scoring Rules [4.81450893955064]
テキスト分類のための能動学習(AL)のための獲得関数について検討する。
我々は、期待損失削減法(ELR)を、ログ確率や負平均二乗誤差などの(厳密な)スコアの増加を推定するために変換する。
BEMPSを用いた平均二乗誤差とログ確率を用いることで、ロバストな取得関数が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:02:11Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。