論文の概要: Hybrid Attribution Priors for Explainable and Robust Model Training
- arxiv url: http://arxiv.org/abs/2512.14719v1
- Date: Tue, 09 Dec 2025 07:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.686787
- Title: Hybrid Attribution Priors for Explainable and Robust Model Training
- Title(参考訳): 説明可能なロバストモデルトレーニングのためのハイブリッド属性
- Authors: Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong,
- Abstract要約: 小型言語モデル(SLM)は低レイテンシと軽量なデプロイメントを必要とするタスクで広く使われている。
そこで本研究では,言語モデルからクラス分類の微粒化を導くために,クラスアウェア属性優先(CAP)を提案する。
CAP Hybridは、CAPの先行と既存の属性技術とを組み合わせて、より包括的でバランスの取れた監視信号を形成する。
- 参考スコア(独自算出の注目度): 31.50571821193181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs) are widely used in tasks that require low latency and lightweight deployment, particularly classification. As interpretability and robustness gain increasing importance, explanation-guided learning has emerged as an effective framework by introducing attribution-based supervision during training; however, deriving general and reliable attribution priors remains a significant challenge. Through an analysis of representative attribution methods in classification settings, we find that although these methods can reliably highlight class-relevant tokens, they often focus on common keywords shared by semantically similar classes. Because such classes are already difficult to distinguish under standard training, these attributions provide insufficient discriminative cues, limiting their ability to improve model differentiation. To overcome this limitation, we propose Class-Aware Attribution Prior (CAP), a novel attribution prior extraction framework that guides language models toward capturing fine-grained class distinctions and producing more salient, discriminative attribution priors. Building on this idea, we further introduce CAP Hybrid, which combines priors from CAP with those from existing attribution techniques to form a more comprehensive and balanced supervisory signal. By aligning a model's self-attribution with these enriched priors, our approach encourages the learning of diverse, decision-relevant features. Extensive experiments in full-data, few-shot, and adversarial scenarios demonstrate that our method consistently enhances both interpretability and robustness.
- Abstract(参考訳): 小型言語モデル(SLM)は、低レイテンシと軽量なデプロイメント、特に分類を必要とするタスクで広く使われている。
解釈可能性と頑健性の重要性が増すにつれて、説明誘導学習は、訓練中に帰属に基づく監督を導入することで効果的な枠組みとして現れてきたが、一般的かつ信頼性の高い帰属先を導き出すことは、依然として大きな課題である。
分類設定における代表帰属手法の分析により,これらの手法はクラス関連トークンを確実に強調することができるが,意味論的に類似したクラスで共有される共通キーワードに注目することが多いことがわかった。
このようなクラスは標準的な訓練下では区別が難しいため、これらの属性は差別的手がかりを不十分にし、モデルの区別を改善する能力を制限する。
この制限を克服するため,我々は,言語モデルからより細粒度のクラスを抽出し,より健全で差別的な属性を生成するための,新しい属性事前抽出フレームワークであるClass-Aware Attribution Prior (CAP)を提案する。
このアイデアに基づいて、CAPの先行と既存の属性技術を組み合わせたCAPハイブリッドを導入し、より包括的でバランスの取れた監視信号を形成する。
モデルが持つ自己帰属とこれらの豊富な先行性とを一致させることで、我々のアプローチは多様な意思決定に関連する特徴の学習を促進する。
本手法は, 全データ, 少数ショット, 反対シナリオにおける広範囲な実験により, 解釈可能性と頑健性の両方を連続的に向上させることを示す。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation [29.809079908218607]
この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
論文 参考訳(メタデータ) (2025-06-13T06:33:27Z) - Generative Modeling of Class Probability for Multi-Modal Representation Learning [7.5696616045063845]
マルチモーダル理解は、モデルが異なるモーダルから入力を共同で解釈できるようにすることによって、人工知能において重要な役割を担っている。
マルチモーダル表現学習にクラス確率分布を利用する新しいクラスアンカーアライメント手法を提案する。
本手法は,クラスアンカーを各モードのクラス確率分布の生成と調整のプロンプトとして符号化する。
論文 参考訳(メタデータ) (2025-03-21T01:17:44Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery [76.63807209414789]
我々は,クラスiNCDにおける現状問題に挑戦し,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。
凍結したPTMバックボーンと学習可能な線形分類器から構成される単純なベースラインを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。