論文の概要: Predictive Representation Learning for Language Modeling
- arxiv url: http://arxiv.org/abs/2105.14214v1
- Date: Sat, 29 May 2021 05:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 22:11:05.539361
- Title: Predictive Representation Learning for Language Modeling
- Title(参考訳): 言語モデリングのための予測表現学習
- Authors: Qingfeng Lan, Luke Kumar, Martha White, Alona Fyshe
- Abstract要約: 副次的情報の相関がLSTM表現に現れるが、それらは暗黙的に監督された予測タスクの一部ではない。
予測表現学習(PRL)を提案し,LSTMを明示的に制約し,特定の予測を符号化する。
- 参考スコア(独自算出の注目度): 33.08232449211759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To effectively perform the task of next-word prediction, long short-term
memory networks (LSTMs) must keep track of many types of information. Some
information is directly related to the next word's identity, but some is more
secondary (e.g. discourse-level features or features of downstream words).
Correlates of secondary information appear in LSTM representations even though
they are not part of an \emph{explicitly} supervised prediction task. In
contrast, in reinforcement learning (RL), techniques that explicitly supervise
representations to predict secondary information have been shown to be
beneficial. Inspired by that success, we propose Predictive Representation
Learning (PRL), which explicitly constrains LSTMs to encode specific
predictions, like those that might need to be learned implicitly. We show that
PRL 1) significantly improves two strong language modeling methods, 2)
converges more quickly, and 3) performs better when data is limited. Our work
shows that explicitly encoding a simple predictive task facilitates the search
for a more effective language model.
- Abstract(参考訳): 単語予測のタスクを効果的に実行するには、長い短期記憶ネットワーク(LSTM)が様々な種類の情報を追跡する必要がある。
いくつかの情報は次の単語の同一性に直接関係しているが、より二次的なものもある(例)。
下流語の談話レベルの特徴または特徴)
二次情報の相関は lstm 表現に現れるが、それらは \emph{explicitly} 教師付き予測タスクの一部ではない。
対照的に、強化学習(RL)では、二次情報を予測するために表現を明示的に監督する手法が有用であることが示されている。
この成功に触発された予測表現学習(PRL)を提案し,LSTMを暗黙的に学習する必要があるような特定の予測をエンコードするように明示的に制約する。
PRL1) は2つの強力な言語モデリング手法を大幅に改善し,2) はより高速に収束し,3) データが制限された場合に性能が向上することを示す。
私たちの研究は、単純な予測タスクを明示的にエンコーディングすることで、より効果的な言語モデルの探索が容易になることを示している。
関連論文リスト
- Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
より解釈可能なVLAフレームワークであるLexVLAを紹介する。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Characterizing Verbatim Short-Term Memory in Neural Language Models [19.308884420859027]
我々は、以前テキストで発生した正確な単語を言語モデルで検索できるかどうかを検証した。
変換器は最初のリストから名詞の同一性と順序の両方を検索した。
先行トークンをインデクシングする能力は、学習された注意パターンに依存する。
論文 参考訳(メタデータ) (2022-10-24T19:47:56Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Analysis of Predictive Coding Models for Phonemic Representation
Learning in Small Datasets [0.0]
本研究では,音素識別タスクにおける2つの予測符号化モデル,自動回帰予測符号化とコントラスト予測符号化の挙動について検討した。
実験の結果, 自己回帰損失と音素識別スコアとの間には, 強い相関関係が認められた。
CPCモデルは、トレーニングデータを渡した後既に急速に収束しており、平均すると、その表現は両方の言語でのAPCよりも優れています。
論文 参考訳(メタデータ) (2020-07-08T15:46:13Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。