論文の概要: MAP's not dead yet: Uncovering true language model modes by conditioning
away degeneracy
- arxiv url: http://arxiv.org/abs/2311.08817v1
- Date: Wed, 15 Nov 2023 09:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:35:45.593204
- Title: MAP's not dead yet: Uncovering true language model modes by conditioning
away degeneracy
- Title(参考訳): MAPはまだ死んでいない:縮退を条件づけて真の言語モデルモードを発見する
- Authors: Davis Yoshida, Kartik Goyal, Kevin Gimpel
- Abstract要約: そこで本研究では,低エントロピー雑音と集団テキスト分布とを混合しても,データ分布モードが縮退する可能性があることを示す。
精密検索を用いて,機械翻訳モデルと言語モデルの長条件モードが,非条件モードよりもはるかに流動的かつ話題的であることを実証的に検証した。
- 参考スコア(独自算出の注目度): 29.74360235387466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been widely observed that exact or approximate MAP (mode-seeking)
decoding from natural language generation (NLG) models consistently leads to
degenerate outputs (Stahlberg and Byrne, 2019, Holtzman et al., 2019). This has
generally been attributed to either a fundamental inadequacy of modes in models
or weaknesses in language modeling. Contrastingly in this work, we emphasize
that degenerate modes can even occur in the absence of any model error, due to
contamination of the training data. Specifically, we show that mixing even a
tiny amount of low-entropy noise with a population text distribution can cause
the data distribution's mode to become degenerate, implying that any models
trained on it will be as well. As the unconditional mode of NLG models will
often be degenerate, we therefore propose to apply MAP decoding to the model's
distribution conditional on avoiding specific degeneracies. Using exact-search,
we empirically verify that the length-conditional modes of machine translation
models and language models are indeed more fluent and topical than their
unconditional modes. For the first time, we also share many examples of exact
modal sequences from these models, and from several variants of the LLaMA-7B
model. Notably, the modes of the LLaMA models are still degenerate, showing
that improvements in modeling have not fixed this issue. Because of the cost of
exact mode finding algorithms, we develop an approximate mode finding approach,
ACBS, which finds sequences that are both high-likelihood and high-quality. We
apply this approach to LLaMA-7B, a model which was not trained for instruction
following, and find that we are able to elicit reasonable outputs without any
finetuning.
- Abstract(参考訳): 自然言語生成(NLG)モデルからの正確なMAPデコード(モード探索)が一貫して退化する(Stahlberg and Byrne, 2019, Holtzman et al., 2019)ことが広く知られている。
これは一般的に、モデルにおけるモードの基本的な不備または言語モデリングの弱点に起因する。
対照的に,本研究では,トレーニングデータの汚染により,モデルエラーがない場合にも縮退モードが発生することを強調する。
具体的には、少量の低エントロピーノイズと人口分布の混合であっても、データ分布のモードが縮退する可能性があることを示し、その上でトレーニングされたモデルも同様であることを示す。
NLGモデルの非条件モードはしばしば退化するので、特定の退化を避けるためにMAPデコーディングをモデルの分散条件に適用することを提案する。
精密検索を用いて,機械翻訳モデルと言語モデルの長条件モードが,非条件モードよりもはるかに流動的かつ話題的であることを実証的に検証した。
はじめて、これらのモデルとLLaMA-7Bモデルのいくつかの変種から、正確なモーダル列の多くの例を共有した。
特に、LLaMAモデルのモードは依然として退化しており、モデリングの改善がこの問題を修正していないことを示している。
厳密なモード探索アルゴリズムのコストのため、我々は近似モード探索手法であるacbsを開発し、高品位かつ高品質なシーケンスを探索する。
このアプローチを、命令追従の訓練を受けていないモデルであるllama-7bに適用し、微調整なしで合理的なアウトプットを導出できることを見出した。
関連論文リスト
- Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文 参考訳(メタデータ) (2024-11-12T04:25:31Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Understanding Deep Generative Models with Generalized Empirical
Likelihoods [3.7978679293562587]
そこで本研究では,最大平均離散性と一般化経験的類似性(Generalized Empirical Likelihood)の技術を組み合わせて,サンプルごとの解釈可能性を維持する分布テストを作成する方法について述べる。
このようなテストでは、精度/リコールの改善などの指標よりも、モード低下やモード不均衡の度合いが最大60%向上していることが判明した。
論文 参考訳(メタデータ) (2023-06-16T11:33:47Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Discrete Denoising Flows [87.44537620217673]
分類的確率変数に対する離散的フローベースモデル(DDF)を提案する。
他の離散フローベースモデルとは対照的に、我々のモデルは勾配バイアスを導入することなく局所的に訓練することができる。
そこで本研究では, DDFs が離散フローより優れていることを示し, 対数類似度で測定した2値MNIST と Cityscapes のセグメンテーションマップをモデル化した。
論文 参考訳(メタデータ) (2021-07-24T14:47:22Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。