論文の概要: B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability
- arxiv url: http://arxiv.org/abs/2502.12992v1
- Date: Tue, 18 Feb 2025 16:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:37.112439
- Title: B-cos LM: Efficiently Transforming Pre-trained Language Models for Improved Explainability
- Title(参考訳): B-cos LM: 説明可能性を改善するための事前学習型言語モデルの効率的な変換
- Authors: Yifan Wang, Sukrut Rao, Ji-Ung Lee, Mayank Jobanputra, Vera Demberg,
- Abstract要約: ブラックボックスモデルのポストホックな説明法は、忠実さと人間の解釈可能性に苦しむことが多い。
NLP タスクに権限を持つ B-cos LM,すなわち B-cos ネットワークを導入する。
提案手法は,B-cos変換とタスク細調整を組み合わせることで,事前学習した言語モデルをB-cos LMに変換する。
- 参考スコア(独自算出の注目度): 21.480463138209483
- License:
- Abstract: Post-hoc explanation methods for black-box models often struggle with faithfulness and human interpretability due to the lack of explainability in current neural models. Meanwhile, B-cos networks have been introduced to improve model explainability through architectural and computational adaptations, but their application has so far been limited to computer vision models and their associated training pipelines. In this work, we introduce B-cos LMs, i.e., B-cos networks empowered for NLP tasks. Our approach directly transforms pre-trained language models into B-cos LMs by combining B-cos conversion and task fine-tuning, improving efficiency compared to previous B-cos methods. Our automatic and human evaluation results demonstrate that B-cos LMs produce more faithful and human interpretable explanations than post hoc methods, while maintaining task performance comparable to conventional fine-tuning. Our in-depth analysis explores how B-cos LMs differ from conventionally fine-tuned models in their learning processes and explanation patterns. Finally, we provide practical guidelines for effectively building B-cos LMs based on our findings. Our code is available at https://anonymous.4open.science/r/bcos_lm.
- Abstract(参考訳): ブラックボックスモデルのポストホックな説明法は、現在のニューラルモデルにおける説明可能性の欠如により、忠実さと人間の解釈可能性に苦しむことが多い。
一方、B-cosネットワークはアーキテクチャおよび計算適応によるモデル説明性の向上のために導入されているが、これまでのところ、その応用はコンピュータビジョンモデルとその関連するトレーニングパイプラインに限られている。
本研究では,NLP タスクに有効な B-cos LM,すなわち B-cos ネットワークを紹介する。
提案手法は,B-cos変換とタスク細調整を組み合わせることで,事前学習した言語モデルをB-cos LMに変換し,従来のB-cos法と比較して効率を向上する。
評価結果から,B-cos LMはポストホック法よりも忠実で解釈可能な説明をし,従来の微調整に匹敵するタスク性能を維持した。
我々は,B-cos LMが学習過程や説明パターンにおいて,従来の微調整モデルとどのように異なるのかを詳細に分析した。
最後に,B-cos LMを効果的に構築するための実践的ガイドラインについて述べる。
私たちのコードはhttps://anonymous.4open.science/r/bcos_lm.orgで公開されています。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - Black-Box Tuning of Vision-Language Models with Effective Gradient
Approximation [71.21346469382821]
ブラックボックスモデルに対するテキストプロンプト最適化と出力特徴適応のための協調ブラックボックスチューニング(CBBT)を導入する。
CBBTは11のダウンストリームベンチマークで広範囲に評価され、既存のブラックボックスVL適応法と比較して顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-26T06:31:28Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Automated Essay Scoring Using Transformer Models [0.415623340386296]
自動エッセイスコアリング(AES)におけるトランスフォーマーに基づくアプローチの検討
本稿では,BOWアプローチに基づくロジスティック回帰モデルと比較し,それらの差について考察する。
このようなモデルが、人間のレーダの精度を高めるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T17:09:47Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。