論文の概要: Adaptive Semiparametric Language Models
- arxiv url: http://arxiv.org/abs/2102.02557v1
- Date: Thu, 4 Feb 2021 11:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 23:41:04.581044
- Title: Adaptive Semiparametric Language Models
- Title(参考訳): 適応型セミパラメトリック言語モデル
- Authors: Dani Yogatama, Cyprien de Masson d'Autume, Lingpeng Kong
- Abstract要約: 本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 17.53604394786977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a language model that combines a large parametric neural network
(i.e., a transformer) with a non-parametric episodic memory component in an
integrated architecture. Our model uses extended short-term context by caching
local hidden states -- similar to transformer-XL -- and global long-term memory
by retrieving a set of nearest neighbor tokens at each timestep. We design a
gating function to adaptively combine multiple information sources to make a
prediction. This mechanism allows the model to use either local context,
short-term memory, or long-term memory (or any combination of them) on an ad
hoc basis depending on the context. Experiments on word-based and
character-based language modeling datasets demonstrate the efficacy of our
proposed method compared to strong baselines.
- Abstract(参考訳): 本稿では,大規模パラメトリックニューラルネットワーク(すなわちトランスフォーマ)と非パラメトリックエピソードメモリコンポーネントを統合アーキテクチャで結合した言語モデルを提案する。
我々のモデルは、ローカルに隠された状態(Transformer-XLに似た)とグローバルな長期記憶をキャッシュすることで、拡張された短期コンテキストを使用します。
複数の情報ソースを適応的に組み合わせて予測するゲーティング機能を設計します。
このメカニズムにより、モデルは、コンテキストに応じて、ローカルコンテキスト、短期メモリ、または長期メモリ(またはそれらの任意の組み合わせ)をアドホックベースで使用することができます。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を強いベースラインと比較した。
関連論文リスト
- Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Improved Semantic Role Labeling using Parameterized Neighborhood Memory
Adaptation [22.064890647610348]
本稿では,アクティベーションのメモリにおける近接するトークンのパラメータ化表現を用いたパラメータ化近傍メモリ適応(PNMA)手法を提案する。
単語埋め込みの種類に関係なく,PNMAはベースモデルのSRL性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-11-29T22:51:25Z) - Coarse-to-Fine Memory Matching for Joint Retrieval and Classification [0.7081604594416339]
共同検索と分類のための新しいエンドツーエンド言語モデルを提案する。
FEVERファクト検証データセットの標準ブラインドテストセットで評価する。
我々は、モデルを分析・制約するためのこの設定に、模範監査を拡張します。
論文 参考訳(メタデータ) (2020-11-29T05:06:03Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。