論文の概要: MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy
- arxiv url: http://arxiv.org/abs/2311.08817v2
- Date: Thu, 8 Aug 2024 01:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:59:13.786385
- Title: MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy
- Title(参考訳): MAPはまだ死んでいない:縮退を条件づけて真の言語モデルモードを発見する
- Authors: Davis Yoshida, Kartik Goyal, Kevin Gimpel,
- Abstract要約: 我々は,少数の低エントロピー雑音と集団テキスト分布を混合しても,データ分布モードが縮退する可能性があると主張している。
我々は、機械翻訳モデルと言語モデルの長さ条件モードが、非条件モードよりも本当に流動的でトピック的であることを実証的に検証した。
- 参考スコア(独自算出の注目度): 26.464639238671054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been widely observed that exact or approximate MAP (mode-seeking) decoding from natural language generation (NLG) models consistently leads to degenerate outputs (Holtzman et al., 2019; Stahlberg and Byrne, 2019). Prior work has attributed this behavior to either a fundamental and unavoidable inadequacy of modes in probabilistic models or weaknesses in language modeling. Contrastingly, we argue that degenerate modes can even occur in the absence of any modeling error, due to contamination of the training data. Specifically, we argue that mixing even a tiny amount of low-entropy noise with a population text distribution can cause the data distribution's mode to become degenerate. We therefore propose to apply MAP decoding to the model's true conditional distribution where the conditioning variable explicitly avoids specific degenerate behavior. Using exact search, we empirically verify that the length-conditional modes of machine translation models and language models are indeed more fluent and topical than their unconditional modes. For the first time, we also share many examples of exact modal sequences from these models, and from several variants of the LLaMA-7B model. Notably, we observe that various kinds of degenerate modes persist, even at the scale of LLaMA-7B. Although we cannot tractably address these degeneracies with exact search, we perform a classifier-based approximate search on LLaMA-7B, a model which was not trained for instruction following, and find that we are able to elicit reasonable outputs without any finetuning.
- Abstract(参考訳): 自然言語生成(NLG)モデルからの正確なMAPデコード(モード探索)が一貫して退化出力をもたらすことが広く知られている(Holtzman et al , 2019; Stahlberg and Byrne, 2019)。
以前の研究は、この振る舞いを確率モデルにおけるモードの基本的で避けられない不適切さ、あるいは言語モデリングにおける弱点によるものとみなしていた。
対照的に、トレーニングデータの汚染により、デジェネレーションモードはモデリングエラーのない場合にも起こりうると論じる。
具体的には、少数の低エントロピーノイズと集団テキスト分布を混合しても、データ分布のモードが縮退する可能性があると論じる。
そこで本研究では,条件変数が特定の退化挙動を明示的に回避するモデルの実条件分布にMAPデコーディングを適用することを提案する。
正確な探索を用いて、機械翻訳モデルと言語モデルの長条件モードが、非条件モードよりも真に流動的かつトピック的であることを実証的に検証する。
はじめて、これらのモデルとLLaMA-7Bモデルのいくつかの変種から、正確なモーダル列の多くの例を共有した。
特に,LLaMA-7Bのスケールにおいても,様々な退化モードが持続することが観察された。
厳密な探索でこれらの退化を正確に解くことはできないが、LLaMA-7Bの分類器に基づく近似探索を行う。
関連論文リスト
- Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文 参考訳(メタデータ) (2024-11-12T04:25:31Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Understanding Deep Generative Models with Generalized Empirical
Likelihoods [3.7978679293562587]
そこで本研究では,最大平均離散性と一般化経験的類似性(Generalized Empirical Likelihood)の技術を組み合わせて,サンプルごとの解釈可能性を維持する分布テストを作成する方法について述べる。
このようなテストでは、精度/リコールの改善などの指標よりも、モード低下やモード不均衡の度合いが最大60%向上していることが判明した。
論文 参考訳(メタデータ) (2023-06-16T11:33:47Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Discrete Denoising Flows [87.44537620217673]
分類的確率変数に対する離散的フローベースモデル(DDF)を提案する。
他の離散フローベースモデルとは対照的に、我々のモデルは勾配バイアスを導入することなく局所的に訓練することができる。
そこで本研究では, DDFs が離散フローより優れていることを示し, 対数類似度で測定した2値MNIST と Cityscapes のセグメンテーションマップをモデル化した。
論文 参考訳(メタデータ) (2021-07-24T14:47:22Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。