論文の概要: Dependency-based Mixture Language Models
- arxiv url: http://arxiv.org/abs/2203.10256v1
- Date: Sat, 19 Mar 2022 06:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:00:08.822279
- Title: Dependency-based Mixture Language Models
- Title(参考訳): 依存性に基づく混合言語モデル
- Authors: Zhixian Yang, Xiaojun Wan
- Abstract要約: 依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
- 参考スコア(独自算出の注目度): 53.152011258252315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various models have been proposed to incorporate knowledge of syntactic
structures into neural language models. However, previous works have relied
heavily on elaborate components for a specific language model, usually
recurrent neural network (RNN), which makes themselves unwieldy in practice to
fit into other neural language models, such as Transformer and GPT-2. In this
paper, we introduce the Dependency-based Mixture Language Models. In detail, we
first train neural language models with a novel dependency modeling objective
to learn the probability distribution of future dependent tokens given context.
We then formulate the next-token probability by mixing the previous dependency
modeling probability distributions with self-attention. Extensive experiments
and human evaluations show that our method can be easily and effectively
applied to different neural language models while improving neural text
generation on various tasks.
- Abstract(参考訳): 構文構造の知識をニューラルネットワークモデルに組み込むために、様々なモデルが提案されている。
しかし、以前の研究は特定の言語モデル(通常はrecurrent neural network (rnn))のための精巧なコンポーネントに大きく依存しており、これは実際にはtransformerやgpt-2といった他のニューラルネットワークモデルに適合しない。
本稿では,依存性に基づく混合言語モデルを紹介する。
具体的には,新たな依存モデリング目標を用いてニューラルネットワークモデルを訓練し,コンテキストに応じた将来の依存トークンの確率分布を学習する。
次に, 先行する依存性モデリング確率分布と自己アテンションを混合することにより, 次の予測確率を定式化する。
広範囲な実験と人体評価により,本手法は様々なタスクにおけるニューラルテキスト生成を改善しつつ,異なるニューラル言語モデルに容易かつ効果的に適用可能であることが示された。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Modeling rapid language learning by distilling Bayesian priors into
artificial neural networks [18.752638142258668]
我々は、ベイズモデルの強い帰納バイアスとニューラルネットワークの柔軟な表現を組み合わせたアプローチで、制限された自然主義的データからの学習が可能であることを示す。
得られたシステムは少数の例から形式的な言語パターンを学習することができる。
また、自然言語のコーパスから英語の構文の側面を学ぶこともできる。
論文 参考訳(メタデータ) (2023-05-24T04:11:59Z) - Mitigating Data Scarcity for Large Language Models [7.259279261659759]
近年,事前学習型ニューラルネットワークモデル (PNLM) が嵐による自然言語処理の分野に進出している。
データ不足は、医学などの専門分野や、AI研究によって調査されていない低リソース言語でよく見られる。
この論文では、データ強化とニューラルアンサンブル学習技術を用いて、データの不足を軽減することに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-03T15:17:53Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Comparing Feature-Engineering and Feature-Learning Approaches for
Multilingual Translationese Classification [11.364204162881482]
従来のフィーチャーエンジニアリングベースのアプローチとフィーチャーラーニングベースのアプローチを比較します。
我々は,手作りの特徴がニューラルネットワークの予測のばらつきをいかにうまく説明するかを考察する。
論文 参考訳(メタデータ) (2021-09-15T22:34:48Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。