論文の概要: Overestimation of Syntactic Representationin Neural Language Models
- arxiv url: http://arxiv.org/abs/2004.05067v1
- Date: Fri, 10 Apr 2020 15:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:52:51.681064
- Title: Overestimation of Syntactic Representationin Neural Language Models
- Title(参考訳): ニューラルネットワークモデルにおける構文表現の過大評価
- Authors: Jordan Kodner, Nitish Gupta
- Abstract要約: 構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
- 参考スコア(独自算出の注目度): 16.765097098482286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of powerful neural language models over the last few years,
research attention has increasingly focused on what aspects of language they
represent that make them so successful. Several testing methodologies have been
developed to probe models' syntactic representations. One popular method for
determining a model's ability to induce syntactic structure trains a model on
strings generated according to a template then tests the model's ability to
distinguish such strings from superficially similar ones with different syntax.
We illustrate a fundamental problem with this approach by reproducing positive
results from a recent paper with two non-syntactic baseline language models: an
n-gram model and an LSTM model trained on scrambled inputs.
- Abstract(参考訳): ここ数年で強力なニューラル言語モデルが出現したことにより、研究の注目は、それらが成功に導く言語のどの側面に焦点を当てている。
モデルの構文表現を探索するいくつかの試験手法が開発されている。
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿は,n-gramモデルとLSTMモデルという2つの非シンタクティックベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Explicit Word Density Estimation for Language Modelling [24.8651840630298]
ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。
本研究では,ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。
論文 参考訳(メタデータ) (2024-06-10T15:21:33Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Structural Supervision Improves Few-Shot Learning and Syntactic
Generalization in Neural Language Models [47.42249565529833]
人間は最小限の経験から単語に関する構造的特性を学ぶことができる。
我々は、現代のニューラル言語モデルがこの行動を英語で再現する能力を評価する。
論文 参考訳(メタデータ) (2020-10-12T14:12:37Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。