論文の概要: Augmenting Interpretable Models with LLMs during Training
- arxiv url: http://arxiv.org/abs/2209.11799v3
- Date: Tue, 25 Apr 2023 01:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 00:00:26.809581
- Title: Augmenting Interpretable Models with LLMs during Training
- Title(参考訳): 訓練中のllmによる解釈モデルの拡張
- Authors: Chandan Singh, Armin Askari, Rich Caruana, Jianfeng Gao
- Abstract要約: 本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
- 参考スコア(独自算出の注目度): 73.40079895413861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have demonstrated remarkable prediction
performance for a growing array of tasks. However, their proliferation into
high-stakes domains (e.g. medicine) and compute-limited settings has created a
burgeoning need for interpretability and efficiency. We address this need by
proposing Augmented Interpretable Models (Aug-imodels), a framework for
leveraging the knowledge learned by LLMs to build extremely efficient and
interpretable models. Aug-imodels use LLMs during fitting but not during
inference, allowing complete transparency and often a speed/memory improvement
of greater than 1,000x for inference compared to LLMs. We explore two
instantiations of Aug-imodels in natural-language processing: (i) Aug-GAM,
which augments a generalized additive model with decoupled embeddings from an
LLM and (ii) Aug-Tree, which augments a decision tree with LLM feature
expansions. Across a variety of text-classification datasets, both outperform
their non-augmented counterparts. Aug-GAM can even outperform much larger
models (e.g. a 6-billion parameter GPT-J model), despite having 10,000x fewer
parameters and being fully transparent. We further explore Aug-imodels in a
natural-language fMRI study, where they generate interesting interpretations
from scientific data. All code for using Aug-imodels and reproducing results is
made available on Github.
- Abstract(参考訳): 最近の大規模言語モデル(llm)は、増加するタスク群に対する顕著な予測性能を示している。
しかし、高吸収領域(医学など)への増殖と計算限界の設定は、解釈可能性と効率性に急激なニーズを生み出している。
LLMが学んだ知識を活用して極めて効率的かつ解釈可能なモデルを構築するためのフレームワークであるAug-imodels(Aug-imodels)を提案することで、このニーズに対処する。
Aug-imodel は入射時に LLM を使用するが、推論中は使用せず、完全な透過性を実現し、LLM と比較して1000倍以上の速度/メモリの改善が可能である。
自然言語処理における aug-imodel の2つのインスタンス化について検討する。
一 LLM と LLM との疎結合による一般化加法モデルを強化した Aug-GAM
(ii) LLM機能拡張で決定木を拡大するAug-Tree。
さまざまなテキスト分類データセットにまたがって、どちらも非指定のデータセットよりも優れています。
Aug-GAMは1万倍のパラメータを持ち、完全に透明であるにもかかわらず、はるかに大きなモデル(例えば6ビリオンのパラメータ GPT-J モデル)よりも優れている。
さらに、Aug-imodelsを自然言語fMRI研究で探求し、科学データから興味深い解釈を生成する。
Aug-imodelsの使用と結果の再現に関するすべてのコードはGithubで公開されている。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking [35.393279375085854]
大きな言語モデル(LLM)は、一般的でない言及を解釈する上で、より堅牢である。
LLM-Augmented Entity Linking LLMAELは,エンティティリンクを強化するためのプラグイン・アンド・プレイ方式である。
6つの標準データセットの実験では、ほとんどの場合、バニラLLMAELはベースラインELモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-04T15:55:13Z) - Data Science with LLMs and Interpretable Models [19.4969442162327]
大きな言語モデル(LLM)は解釈可能なモデルを扱うのに非常に適しています。
LLMはGAM(Generalized Additive Models)を記述、解釈、デバッグできることを示す。
論文 参考訳(メタデータ) (2024-02-22T12:04:15Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Empower Your Model with Longer and Better Context Comprehension [15.377707808279908]
大規模言語モデル(LLM)における情報伝達の性質について検討する。
本研究では,より長いコンテキスト理解を実現するために,意識遷移と呼ばれる新しい手法を提案する。
LLaMa-7bモデルを用いて,800年から1900年までのコンテクストトークン長を持つXSumデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-07-25T09:34:42Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。