論文の概要: Efficient Nearest Neighbor Language Models
- arxiv url: http://arxiv.org/abs/2109.04212v1
- Date: Thu, 9 Sep 2021 12:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:18:40.220210
- Title: Efficient Nearest Neighbor Language Models
- Title(参考訳): 効率的な近距離言語モデル
- Authors: Junxian He, Graham Neubig, Taylor Berg-Kirkpatrick
- Abstract要約: 非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
- 参考スコア(独自算出の注目度): 114.40866461741795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-parametric neural language models (NLMs) learn predictive distributions
of text utilizing an external datastore, which allows them to learn through
explicitly memorizing the training datapoints. While effective, these models
often require retrieval from a large datastore at test time, significantly
increasing the inference overhead and thus limiting the deployment of
non-parametric NLMs in practical applications. In this paper, we take the
recently proposed $k$-nearest neighbors language model (Khandelwal et al.,
2019) as an example, exploring methods to improve its efficiency along various
dimensions. Experiments on the standard WikiText-103 benchmark and
domain-adaptation datasets show that our methods are able to achieve up to a 6x
speed-up in inference speed while retaining comparable performance. The
empirical analysis we present may provide guidelines for future research
seeking to develop or deploy more efficient non-parametric NLMs.
- Abstract(参考訳): 非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを使用してテキストの予測分布を学習し、トレーニングデータポイントを明示的に記憶することで学習する。
有効ではあるが、これらのモデルはテスト時に大規模なデータストアからの検索を必要とし、推論オーバーヘッドを大幅に増加させ、実用的なアプリケーションにおける非パラメトリックNLMの展開を制限する。
本稿では,最近提案された$k$-nearest neighbors言語モデル (khandelwal et al., 2019) を例として,様々な次元における効率向上のための手法を検討する。
標準wikitext-103ベンチマークとドメイン適応データセットによる実験では、我々のメソッドは、同等のパフォーマンスを維持しながら、推論速度を最大6倍のスピードアップを達成できることが示されています。
本研究は,より効率的な非パラメトリックNLMの開発と展開を目指す今後の研究のガイドラインを提供する。
関連論文リスト
- EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Improved Semantic Role Labeling using Parameterized Neighborhood Memory
Adaptation [22.064890647610348]
本稿では,アクティベーションのメモリにおける近接するトークンのパラメータ化表現を用いたパラメータ化近傍メモリ適応(PNMA)手法を提案する。
単語埋め込みの種類に関係なく,PNMAはベースモデルのSRL性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-11-29T22:51:25Z) - Few-shot Learning for Spatial Regression [31.022722103424684]
空間回帰のための数ショット学習法を提案する。
本モデルは,地域によって異なる属性の空間的データセットを用いて訓練されている。
本研究では,提案手法が既存のメタ学習手法よりも優れた予測性能を実現することを示す。
論文 参考訳(メタデータ) (2020-10-09T04:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。