論文の概要: B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability
- arxiv url: http://arxiv.org/abs/2502.12992v2
- Date: Mon, 14 Jul 2025 13:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.849892
- Title: B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability
- Title(参考訳): B-cos LM: 説明可能性を改善するための事前学習型言語モデルの効率的な変換
- Authors: Yifan Wang, Sukrut Rao, Ji-Ung Lee, Mayank Jobanputra, Vera Demberg,
- Abstract要約: 自然言語処理(NLP)タスクに有効なB-cos言語モデル(LM)を導入する。
提案手法は,B-cos変換とタスク細調整を組み合わせることで,事前学習した言語モデルをB-cos LMに変換する。
自動評価の結果,B-cos LMはポストホック法よりも信頼性が高く,人間の解釈可能な説明が得られていることがわかった。
- 参考スコア(独自算出の注目度): 21.480463138209483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc explanation methods for black-box models often struggle with faithfulness and human interpretability due to the lack of explainability in current neural architectures. Meanwhile, B-cos networks have been introduced to improve model explainability by proposing an architecture that removes bias terms and promotes input-weight alignment. Although B-cos networks have shown success in building explainable systems, their application has so far been limited to computer vision models and their associated training pipelines. In this work, we introduce B-cos LMs, i.e., B-cos language models (LMs) empowered for natural language processing (NLP) tasks. Our approach directly transforms pre-trained language models into B-cos LMs by combining B-cos conversion and task fine-tuning, improving efficiency compared to previous methods. Our automatic and human evaluation results demonstrate that B-cos LMs produce more faithful and human interpretable explanations than post-hoc methods, while maintaining task performance comparable to conventional fine-tuning. Our in-depth analysis explores how B-cos LMs differ from conventionally fine-tuned models in their learning processes and explanation patterns. Finally, we are also the first to explore the transformation of decoder-only models to B-cos LMs for generation tasks.
- Abstract(参考訳): ブラックボックスモデルのポストホックな説明法は、現在のニューラルアーキテクチャにおける説明可能性の欠如により、忠実さと人間の解釈可能性に苦しむことが多い。
一方、B-cosネットワークは、バイアス項を除去し、入力重み付けを促進するアーキテクチャを提案することで、モデル説明可能性を向上させるために導入されている。
B-cosネットワークは、説明可能なシステムの構築に成功しているが、これまでのところ、そのアプリケーションはコンピュータビジョンモデルとその関連するトレーニングパイプラインに限られている。
本研究では,自然言語処理(NLP)タスクに有効なB-cos言語モデル(LM)を紹介する。
提案手法は,B-cos変換とタスク細調整を組み合わせることで,事前学習した言語モデルをB-cos LMに変換し,従来の手法と比較して効率を向上する。
評価結果から,B-cos LMはポストホック法よりも信頼性が高く,人間の解釈可能な説明が得られ,従来の微調整に匹敵するタスク性能を維持した。
我々は,B-cos LMが学習過程や説明パターンにおいて,従来の微調整モデルとどのように異なるのかを詳細に分析した。
最後に、生成タスクのためのデコーダのみのモデルからB-cos LMへの変換を初めて検討する。
関連論文リスト
- Language Model Meets Prototypes: Towards Interpretable Text Classification Models through Prototypical Networks [1.1711824752079485]
論文は、LMをエンコーダとして使用する際に本質的に解釈可能なモデルを開発することに焦点を当てている。
ホワイトボックスのマルチヘッドグラフアテンションに基づくプロトタイプネットワークを開発した。
私は、解釈可能なグラフニューラルネットワークを再設計するために、コントラスト学習による注意ベースのプロトタイプネットワークの拡張に取り組んでいます。
論文 参考訳(メタデータ) (2024-12-04T22:59:35Z) - Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。
BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。
本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文 参考訳(メタデータ) (2024-11-27T03:31:14Z) - A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Overcoming Knowledge Barriers: Online Imitation Learning from Visual Observation with Pretrained World Models [8.77288940968713]
本研究は,EKB(Embodiment Knowledge Barrier)とDKB(Demonstration Knowledge Barrier)の2つの主要な障害を明らかにする。
EKBは、新しい観測を扱うための事前訓練されたモデルの制限により出現し、不正確な行動推論を引き起こす。
DKBは、限られたデモンストレーションデータセットに依存することから生まれたもので、さまざまなシナリオにわたるモデルの適応性を制限する。
それぞれの障壁を克服し、証拠の最大化(AIME)による行動推論に適用するための別の解決策を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:33:52Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - LAP: An Attention-Based Module for Concept Based Self-Interpretation and
Knowledge Injection in Convolutional Neural Networks [2.8948274245812327]
本稿では,自己解釈性を実現するため,新しい注意型プール層であるLAP(Local Attention Pooling)を提案する。
LAPはどんな畳み込みニューラルネットワークにも簡単にプラグインできる。
LAPは一般的なホワイトボックスの説明法よりも、人間の理解しやすく忠実なモデル解釈を提供する。
論文 参考訳(メタデータ) (2022-01-27T21:10:20Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。