論文の概要: MAP's not dead yet: Uncovering true language model modes by conditioning
away degeneracy
- arxiv url: http://arxiv.org/abs/2311.08817v1
- Date: Wed, 15 Nov 2023 09:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:35:45.593204
- Title: MAP's not dead yet: Uncovering true language model modes by conditioning
away degeneracy
- Title(参考訳): MAPはまだ死んでいない:縮退を条件づけて真の言語モデルモードを発見する
- Authors: Davis Yoshida, Kartik Goyal, Kevin Gimpel
- Abstract要約: そこで本研究では,低エントロピー雑音と集団テキスト分布とを混合しても,データ分布モードが縮退する可能性があることを示す。
精密検索を用いて,機械翻訳モデルと言語モデルの長条件モードが,非条件モードよりもはるかに流動的かつ話題的であることを実証的に検証した。
- 参考スコア(独自算出の注目度): 29.74360235387466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been widely observed that exact or approximate MAP (mode-seeking)
decoding from natural language generation (NLG) models consistently leads to
degenerate outputs (Stahlberg and Byrne, 2019, Holtzman et al., 2019). This has
generally been attributed to either a fundamental inadequacy of modes in models
or weaknesses in language modeling. Contrastingly in this work, we emphasize
that degenerate modes can even occur in the absence of any model error, due to
contamination of the training data. Specifically, we show that mixing even a
tiny amount of low-entropy noise with a population text distribution can cause
the data distribution's mode to become degenerate, implying that any models
trained on it will be as well. As the unconditional mode of NLG models will
often be degenerate, we therefore propose to apply MAP decoding to the model's
distribution conditional on avoiding specific degeneracies. Using exact-search,
we empirically verify that the length-conditional modes of machine translation
models and language models are indeed more fluent and topical than their
unconditional modes. For the first time, we also share many examples of exact
modal sequences from these models, and from several variants of the LLaMA-7B
model. Notably, the modes of the LLaMA models are still degenerate, showing
that improvements in modeling have not fixed this issue. Because of the cost of
exact mode finding algorithms, we develop an approximate mode finding approach,
ACBS, which finds sequences that are both high-likelihood and high-quality. We
apply this approach to LLaMA-7B, a model which was not trained for instruction
following, and find that we are able to elicit reasonable outputs without any
finetuning.
- Abstract(参考訳): 自然言語生成(NLG)モデルからの正確なMAPデコード(モード探索)が一貫して退化する(Stahlberg and Byrne, 2019, Holtzman et al., 2019)ことが広く知られている。
これは一般的に、モデルにおけるモードの基本的な不備または言語モデリングの弱点に起因する。
対照的に,本研究では,トレーニングデータの汚染により,モデルエラーがない場合にも縮退モードが発生することを強調する。
具体的には、少量の低エントロピーノイズと人口分布の混合であっても、データ分布のモードが縮退する可能性があることを示し、その上でトレーニングされたモデルも同様であることを示す。
NLGモデルの非条件モードはしばしば退化するので、特定の退化を避けるためにMAPデコーディングをモデルの分散条件に適用することを提案する。
精密検索を用いて,機械翻訳モデルと言語モデルの長条件モードが,非条件モードよりもはるかに流動的かつ話題的であることを実証的に検証した。
はじめて、これらのモデルとLLaMA-7Bモデルのいくつかの変種から、正確なモーダル列の多くの例を共有した。
特に、LLaMAモデルのモードは依然として退化しており、モデリングの改善がこの問題を修正していないことを示している。
厳密なモード探索アルゴリズムのコストのため、我々は近似モード探索手法であるacbsを開発し、高品位かつ高品質なシーケンスを探索する。
このアプローチを、命令追従の訓練を受けていないモデルであるllama-7bに適用し、微調整なしで合理的なアウトプットを導出できることを見出した。
関連論文リスト
- Transferable Reinforcement Learning via Generalized Occupancy Models [39.19488782783677]
一般化占有モデル(GOM)の新たなクラスを提案する。
GOMは、定常データセットのカバレッジの下で、ある状態から可能なすべての長期的な結果の分布をモデル化する。
GOMは任意の報酬関数の一般性を保ちながら複合エラーを避ける。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Understanding Deep Generative Models with Generalized Empirical
Likelihoods [3.7978679293562587]
そこで本研究では,最大平均離散性と一般化経験的類似性(Generalized Empirical Likelihood)の技術を組み合わせて,サンプルごとの解釈可能性を維持する分布テストを作成する方法について述べる。
このようなテストでは、精度/リコールの改善などの指標よりも、モード低下やモード不均衡の度合いが最大60%向上していることが判明した。
論文 参考訳(メタデータ) (2023-06-16T11:33:47Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Autoregressive Diffusion Models [34.125045462636386]
本稿では,次数に依存しない自己回帰モデルを含むモデルクラスであるAutoregressive Diffusion Models (ARDMs)を紹介する。
ARDMは実装が簡単で、訓練も容易であり、現代の確率的拡散モデルに似た効率的な目的を用いて訓練することができる。
我々は,ARDMが完全なデータセットだけでなく,単一のデータポイントの圧縮においても,説得力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-05T13:36:55Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。