論文の概要: Emb-GAM: an Interpretable and Efficient Predictor using Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2209.11799v1
- Date: Fri, 23 Sep 2022 18:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:02:30.004627
- Title: Emb-GAM: an Interpretable and Efficient Predictor using Pre-trained
Language Models
- Title(参考訳): Emb-GAM:事前学習言語モデルを用いた解釈可能かつ効率的な予測器
- Authors: Chandan Singh, Jianfeng Gao
- Abstract要約: 深層学習モデルは、医療や政策立案のような高度な領域における解釈可能性の犠牲になることが多い。
本研究では,事前学習されたニューラルネットワークモデルを用いて,各入力に対する埋め込みを抽出することにより,このギャップを埋めることを目的とする。
最終的なモデル(Emb-GAMと呼ぶ)は、入力機能と機能相互作用の透明で線形な関数である。
- 参考スコア(独自算出の注目度): 80.91211140237986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models have achieved impressive prediction performance but
often sacrifice interpretability, a critical consideration in high-stakes
domains such as healthcare or policymaking. In contrast, generalized additive
models (GAMs) can maintain interpretability but often suffer from poor
prediction performance due to their inability to effectively capture feature
interactions. In this work, we aim to bridge this gap by using pre-trained
neural language models to extract embeddings for each input before learning a
linear model in the embedding space. The final model (which we call Emb-GAM) is
a transparent, linear function of its input features and feature interactions.
Leveraging the language model allows Emb-GAM to learn far fewer linear
coefficients, model larger interactions, and generalize well to novel inputs
(e.g. unseen ngrams in text). Across a variety of natural-language-processing
datasets, Emb-GAM achieves strong prediction performance without sacrificing
interpretability. All code is made available on Github.
- Abstract(参考訳): ディープラーニングモデルは印象的な予測性能を達成したが、医療や政策立案といった高度な領域において重要な考慮事項である解釈可能性の犠牲になることが多い。
対照的に、一般化加法モデル(GAM)は解釈可能性を維持することができるが、しばしば特徴的相互作用を効果的に捉えることができないために予測性能が低下する。
本研究では,事前学習されたニューラルネットワークモデルを用いて,埋め込み空間で線形モデルを学ぶ前に,各入力に対する埋め込みを抽出することで,このギャップを埋めることを目的とする。
最終的なモデル(Emb-GAMと呼ぶ)は、入力機能と機能相互作用の透明で線形な関数である。
言語モデルを活用することで、Emb-GAMは、はるかに少ない線形係数を学習し、より大きな相互作用をモデル化し、新しい入力(例えば、テキストで見えないnグラム)にうまく一般化することができる。
さまざまな自然言語処理データセットにわたって、Emb-GAMは、解釈性を犠牲にすることなく、強い予測性能を達成する。
すべてのコードはgithubから入手できる。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking [35.393279375085854]
大きな言語モデル(LLM)は、一般的でない言及を解釈する上で、より堅牢である。
LLM-Augmented Entity Linking LLMAELは,エンティティリンクを強化するためのプラグイン・アンド・プレイ方式である。
6つの標準データセットの実験では、ほとんどの場合、バニラLLMAELはベースラインELモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-04T15:55:13Z) - Data Science with LLMs and Interpretable Models [19.4969442162327]
大きな言語モデル(LLM)は解釈可能なモデルを扱うのに非常に適しています。
LLMはGAM(Generalized Additive Models)を記述、解釈、デバッグできることを示す。
論文 参考訳(メタデータ) (2024-02-22T12:04:15Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Empower Your Model with Longer and Better Context Comprehension [15.377707808279908]
大規模言語モデル(LLM)における情報伝達の性質について検討する。
本研究では,より長いコンテキスト理解を実現するために,意識遷移と呼ばれる新しい手法を提案する。
LLaMa-7bモデルを用いて,800年から1900年までのコンテクストトークン長を持つXSumデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-07-25T09:34:42Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。