論文の概要: Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding
- arxiv url: http://arxiv.org/abs/2002.02492v2
- Date: Fri, 2 Oct 2020 22:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 09:34:00.839882
- Title: Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding
- Title(参考訳): 不完全復号化を考慮した並行言語モデルの整合性
- Authors: Sean Welleck, Ilia Kulikov, Jaedeok Kim, Richard Yuanzhe Pang,
Kyunghyun Cho
- Abstract要約: 逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
- 参考スコア(独自算出の注目度): 67.54760086239514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite strong performance on a variety of tasks, neural sequence models
trained with maximum likelihood have been shown to exhibit issues such as
length bias and degenerate repetition. We study the related issue of receiving
infinite-length sequences from a recurrent language model when using common
decoding algorithms. To analyze this issue, we first define inconsistency of a
decoding algorithm, meaning that the algorithm can yield an infinite-length
sequence that has zero probability under the model. We prove that commonly used
incomplete decoding algorithms - greedy search, beam search, top-k sampling,
and nucleus sampling - are inconsistent, despite the fact that recurrent
language models are trained to produce sequences of finite length. Based on
these insights, we propose two remedies which address inconsistency: consistent
variants of top-k and nucleus sampling, and a self-terminating recurrent
language model. Empirical results show that inconsistency occurs in practice,
and that the proposed methods prevent inconsistency.
- Abstract(参考訳): 様々なタスクで強い性能を発揮するにもかかわらず、最大確率で訓練された神経配列モデルは、長さバイアスや縮退反復といった問題を示すことが示されている。
共通復号アルゴリズムを用いて、繰り返し言語モデルから無限長のシーケンスを受信する問題について検討する。
この問題を分析するために,まずデコードアルゴリズムの非一貫性を定義する。つまり,モデルの下では確率がゼロな無限長列を生成することができる。
再帰的な言語モデルが有限長のシーケンスを生成するように訓練されているにもかかわらず、不完全復号アルゴリズム(グリーディ探索、ビーム探索、トップkサンプリング、核サンプリング)は一貫性がないことが証明される。
これらの知見に基づいて,top-kサンプリングとnucleusサンプリングの一貫性のある変種と,自己消滅型リカレント言語モデルという,不整合に対処する2つのレメディエーションを提案する。
実験の結果,非一貫性は実際に発生し,提案手法では非一貫性を防止できることがわかった。
関連論文リスト
- Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - A Non-monotonic Self-terminating Language Model [62.93465126911921]
本稿では,不完全復号アルゴリズムによる非終端列の問題に焦点をあてる。
まず、グリーディ探索、トップ$kのサンプリング、核サンプリングを含む不完全確率復号アルゴリズムを定義する。
次に,単調な終端確率の制約を緩和する非単調な自己終端言語モデルを提案する。
論文 参考訳(メタデータ) (2022-10-03T00:28:44Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - Uncertainty Determines the Adequacy of the Mode and the Tractability of
Decoding in Sequence-to-Sequence Models [11.258630552727432]
ニューラルシークエンスモデルによって学習された分布のあいまいさ(内在不確実性とも呼ばれる)がどのように形成されるかを分析する。
その結果,ビーム探索誤差の多さ,モードの不十分さ,ビームサイズが大きいシステム性能の低下など,曖昧性の高いタスクに適用できることが示唆された。
論文 参考訳(メタデータ) (2022-04-01T14:30:19Z) - Diverse Counterfactual Explanations for Anomaly Detection in Time Series [26.88575131193757]
本稿では,時系列異常検出モデルに対する反実的アンサンブル説明を生成するモデル非依存アルゴリズムを提案する。
本手法は, 検出モデルでは異常とはみなされない, 元の時系列の複数バージョンを, 多様な逆実例として生成する。
我々のアルゴリズムは、任意の識別可能な異常検出モデルに適用できる。
論文 参考訳(メタデータ) (2022-03-21T16:30:34Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。