論文の概要: Interpretable Language Modeling via Induction-head Ngram Models
- arxiv url: http://arxiv.org/abs/2411.00066v1
- Date: Thu, 31 Oct 2024 12:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:33.935195
- Title: Interpretable Language Modeling via Induction-head Ngram Models
- Title(参考訳): インダクションヘッドNgramモデルによる解釈可能な言語モデリング
- Authors: Eunji Kim, Sriya Mantena, Weiwei Yang, Chandan Singh, Sungroh Yoon, Jianfeng Gao,
- Abstract要約: 誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 74.26720927767398
- License:
- Abstract: Recent large language models (LLMs) have excelled across a wide range of tasks, but their use in high-stakes and compute-limited settings has intensified the demand for interpretability and efficiency. We address this need by proposing Induction-head ngram models (Induction-Gram), a method that builds an efficient, interpretable LM by bolstering modern ngram models with a hand-engineered "induction head". This induction head uses a custom neural similarity metric to efficiently search the model's input context for potential next-word completions. This process enables Induction-Gram to provide ngram-level grounding for each generated token. Moreover, experiments show that this simple method significantly improves next-word prediction over baseline interpretable models (up to 26%p) and can be used to speed up LLM inference for large models through speculative decoding. We further study Induction-Gram in a natural-language neuroscience setting, where the goal is to predict the next fMRI response in a sequence. It again provides a significant improvement over interpretable models (20% relative increase in the correlation of predicted fMRI responses), potentially enabling deeper scientific investigation of language selectivity in the brain. The code is available at https://github.com/ejkim47/induction-gram.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は多種多様なタスクで優れているが, 高い処理量と計算能力に制限された設定での使用により, 解釈可能性や効率性への需要が高まっている。
誘導ヘッドngramモデル(Induction-Gram)は,手作業による「誘導ヘッド」による現代的なngramモデルの構築により,効率的な解釈可能なLMを構築する手法である。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
このプロセスにより、インダクション-Gramは生成されたトークンごとにngramレベルのグラウンドを提供することができる。
さらに,本手法は,ベースライン解釈可能なモデル(最大26%p)の次単語予測を大幅に改善し,投機的復号化による大規模モデルのLLM推論の高速化に有効であることを示す。
我々はさらに、次のfMRI反応をシーケンスで予測することを目的として、自然言語の神経科学環境で誘導-Gramについて研究する。
また、解釈可能なモデル(予測されたfMRI反応の相関関係の20%の相対的な増加)よりも大幅に改善され、脳内の言語選択性についてより深い科学的研究が可能になる可能性がある。
コードはhttps://github.com/ejkim47/induction-gramで入手できる。
関連論文リスト
- Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - N2G: A Scalable Approach for Quantifying Interpretable Neuron
Representations in Large Language Models [0.0]
N2Gは、ニューロンとそのデータセットの例を取り、これらの例のニューロンの振る舞いを解釈可能なグラフに自動的に蒸留するツールである。
我々は、重要なトークンのみを提示するためにトランケーションとサリエンシ法を使用し、より多様なサンプルでデータセットの例を拡大し、ニューロンの振る舞いの程度をより正確に把握する。
これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
論文 参考訳(メタデータ) (2023-04-22T19:06:13Z) - Neural Additive Models for Location Scale and Shape: A Framework for
Interpretable Neural Regression Beyond the Mean [1.0923877073891446]
ディープニューラルネットワーク(DNN)は、様々なタスクで非常に効果的であることが証明されている。
この成功にもかかわらず、DNNの内部構造はしばしば透明ではない。
この解釈可能性の欠如は、本質的に解釈可能なニューラルネットワークの研究の増加につながった。
論文 参考訳(メタデータ) (2023-01-27T17:06:13Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - An Investigation of Potential Function Designs for Neural CRF [75.79555356970344]
本稿では,ニューラルCRFモデルに対する一連の表現力のあるポテンシャル関数について検討する。
実験により, 隣接する2つのラベルと隣接する2つの単語のベクトル表現に基づく分解された二次ポテンシャル関数が, 常に最高の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-11T07:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。