論文の概要: Contrast-CAT: Contrasting Activations for Enhanced Interpretability in Transformer-based Text Classifiers
- arxiv url: http://arxiv.org/abs/2507.21186v1
- Date: Sun, 27 Jul 2025 11:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.053668
- Title: Contrast-CAT: Contrasting Activations for Enhanced Interpretability in Transformer-based Text Classifiers
- Title(参考訳): Contrast-CAT: Transformer-based Text Classifier における解釈可能性向上のためのアクティベーションの対比
- Authors: Sungmin Han, Jeonghyun Lee, Sangkyun Lee,
- Abstract要約: 本稿では,新しいアクティベーションコントラストに基づく属性法であるContrast-CATを提案する。
クラス非関連機能をフィルタリングすることでトークンレベルの属性を洗練します。
実験の結果、Contrast-CATは最先端の手法よりも一貫して優れていたことが確認された。
- 参考スコア(独自算出の注目度): 7.373617024876726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have profoundly influenced AI research, but explaining their decisions remains challenging -- even for relatively simpler tasks such as classification -- which hinders trust and safe deployment in real-world applications. Although activation-based attribution methods effectively explain transformer-based text classification models, our findings reveal that these methods can be undermined by class-irrelevant features within activations, leading to less reliable interpretations. To address this limitation, we propose Contrast-CAT, a novel activation contrast-based attribution method that refines token-level attributions by filtering out class-irrelevant features. By contrasting the activations of an input sequence with reference activations, Contrast-CAT generates clearer and more faithful attribution maps. Experimental results across various datasets and models confirm that Contrast-CAT consistently outperforms state-of-the-art methods. Notably, under the MoRF setting, it achieves average improvements of x1.30 in AOPC and x2.25 in LOdds over the most competing methods, demonstrating its effectiveness in enhancing interpretability for transformer-based text classification.
- Abstract(参考訳): トランスフォーマーはAI研究に大きな影響を与えてきたが、それらの決定を説明することは、分類のような比較的単純なタスクであっても、現実のアプリケーションにおける信頼性と安全なデプロイを妨げる。
アクティベーションに基づく帰属法は, トランスフォーマーに基づくテキスト分類モデルを効果的に説明できるが, それらの手法はアクティベーション内でのクラス非関連の特徴によって損なわれる可能性があり, 信頼性の低い解釈が導かれる。
この制限に対処するため,Contrast-CATを提案する。Contrast-CATは,クラス非関連特徴をフィルタリングすることでトークンレベルの属性を洗練する,新しいアクティベーションコントラストベースの属性手法である。
入力シーケンスのアクティベートと参照アクティベーションとの対比により、Contrast-CATはより明確で忠実な属性マップを生成する。
さまざまなデータセットやモデルにわたる実験結果から、Contrast-CATは一貫して最先端の手法よりも優れています。
特に、MoRF設定の下では、最も競合する方法よりもAOPCのx1.30とLOddsのx2.25の平均的な改善を実現し、トランスフォーマーベースのテキスト分類の解釈可能性を高める効果を示す。
関連論文リスト
- Pooling Attention: Evaluating Pretrained Transformer Embeddings for Deception Classification [0.0]
BERT埋め込みとロジスティック回帰は、LIARデータセット分割のニューラルネットワークよりも優れている。
この研究は、注意に基づくトークンエンコーダを、正確性タスクのための堅牢でアーキテクチャ中心の基盤として位置付けている。
論文 参考訳(メタデータ) (2025-11-28T08:32:49Z) - BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers [2.5680214354539803]
半ショット変換器(BATR-FST)の両レベル適応型トケリファインメントを提案する。
BATR-FSTはトークン表現を徐々に改善し、数ショット分類のための頑健な帰納バイアスを維持している。
1ショットと5ショットの両方のシナリオで優れた結果が得られ、トランスフォーマーによる数ショットの分類が改善される。
論文 参考訳(メタデータ) (2025-09-16T07:33:21Z) - Attribute Fusion-based Classifier on Framework of Belief Structure [46.24928730489845]
Dempster-Shafer Theory (DST)は、不確実性をモデリングするための強力なフレームワークを提供し、多属性分類タスクに広く適用されてきた。
従来のDSTに基づく属性融合型分類器は、単純化されたメンバーシップ関数モデリングと基本確率割当(BPA)による信念構造の限定的活用に悩まされている。
本稿では,2つの重要なイノベーションを通じて,これらの制限に対処する属性融合型分類器を提案する。
論文 参考訳(メタデータ) (2025-08-31T09:05:15Z) - Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Towards Robust Few-Shot Text Classification Using Transformer Architectures and Dual Loss Strategies [6.78820305740543]
本稿では,適応的な微調整,コントラスト学習,正規化最適化を組み合わせ,トランスフォーマーに基づくモデルの分類性能を向上させる戦略を提案する。
FewRel 2.0データセットの実験によると、T5-small、DeBERTa-v3、RoBERTa-baseは、数ショットタスクでうまく機能している。
論文 参考訳(メタデータ) (2025-05-09T15:54:08Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers [0.0]
BERTテキスト分類器の逆実説明を生成する5つの方法を評価する。
確立されたホワイトボックス置換ベースのメソッドは、分類器の出力を変更する有効な偽物を生成するのに効果的である。
大規模言語モデル(LLM)に基づく新しい手法は、自然言語および言語学的に妥当なテキスト偽造物を生成するのに優れている。
論文 参考訳(メタデータ) (2024-11-04T22:01:52Z) - Enhancing cross-domain detection: adaptive class-aware contrastive
transformer [15.666766743738531]
対象領域の不十分なラベルは、クラス不均衡とモデル性能劣化の問題を悪化させる。
逆学習と平均教師フレームワークに基づくクラス対応クロスドメイン検出変換器を提案する。
論文 参考訳(メタデータ) (2024-01-24T07:11:05Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Can Transformers be Strong Treatment Effect Estimators? [86.32484218657166]
本研究では,様々な処理効果推定問題に対処するために,Transformerアーキテクチャに基づく汎用フレームワークを開発する。
本手法は, 離散的, 連続的, 構造的, あるいは服用関連治療に応用される。
Transformers as Treatment Effect Estimator (TransTEE) を用いて行った実験は、これらの誘導バイアスが因果効果を推定する研究で発生する推定問題やデータセットの種類にも有効であることを示した。
論文 参考訳(メタデータ) (2022-02-02T23:56:42Z) - Diversity Enhanced Active Learning with Strictly Proper Scoring Rules [4.81450893955064]
テキスト分類のための能動学習(AL)のための獲得関数について検討する。
我々は、期待損失削減法(ELR)を、ログ確率や負平均二乗誤差などの(厳密な)スコアの増加を推定するために変換する。
BEMPSを用いた平均二乗誤差とログ確率を用いることで、ロバストな取得関数が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:02:11Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。