論文の概要: Modeling the Unigram Distribution
- arxiv url: http://arxiv.org/abs/2106.02289v1
- Date: Fri, 4 Jun 2021 07:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:08:36.039299
- Title: Modeling the Unigram Distribution
- Title(参考訳): ユニグラム分布のモデル化
- Authors: Irene Nikkarinen, Tiago Pimentel, Dami\'an E. Blasi, Ryan Cotterell
- Abstract要約: ユニグラム分布は、コーパス内の特定の単語形式を見つける非文脈確率である。
我々はそれを言語で推定するための新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 39.153612297712655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unigram distribution is the non-contextual probability of finding a
specific word form in a corpus. While of central importance to the study of
language, it is commonly approximated by each word's sample frequency in the
corpus. This approach, being highly dependent on sample size, assigns zero
probability to any out-of-vocabulary (oov) word form. As a result, it produces
negatively biased probabilities for any oov word form, while positively biased
probabilities to in-corpus words. In this work, we argue in favor of properly
modeling the unigram distribution -- claiming it should be a central task in
natural language processing. With this in mind, we present a novel model for
estimating it in a language (a neuralization of Goldwater et al.'s (2011)
model) and show it produces much better estimates across a diverse set of 7
languages than the na\"ive use of neural character-level language models.
- Abstract(参考訳): 一グラム分布は、コーパス内の特定の単語形式を見つける非文脈確率である。
言語研究の中心的重要性は大きいが、コーパス内の各単語のサンプル周波数によって近似されることが多い。
このアプローチはサンプルサイズに大きく依存しており、任意の外語彙(oov)ワード形式にゼロ確率を割り当てる。
その結果、任意のoovワード形式に対して負の偏りが生じる一方で、コーパス語に対する正の偏りが生じる。
本研究では,ユニグラム分布を適切にモデル化することを支持し,自然言語処理における中心的なタスクであるべきだと主張している。
このことを念頭に, 言語で推定する新しいモデル(goldwaterらによる神経化)を提案する。
ニューラルキャラクタレベルの言語モデルを用いた場合よりも、多種多様な7言語に対してずっと優れた推定結果が得られることが示されています。
関連論文リスト
- Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Forcing Diffuse Distributions out of Language Models [70.28345569190388]
ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。
本稿では,言語モデルに有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T19:17:23Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。