論文の概要: A Non-monotonic Self-terminating Language Model
- arxiv url: http://arxiv.org/abs/2210.00660v1
- Date: Mon, 3 Oct 2022 00:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:02:58.352924
- Title: A Non-monotonic Self-terminating Language Model
- Title(参考訳): 非単調な自己終端言語モデル
- Authors: Eugene Choi, Cheolhyoung Lee, Kyunghyun Cho
- Abstract要約: 本稿では,不完全復号アルゴリズムによる非終端列の問題に焦点をあてる。
まず、グリーディ探索、トップ$kのサンプリング、核サンプリングを含む不完全確率復号アルゴリズムを定義する。
次に,単調な終端確率の制約を緩和する非単調な自己終端言語モデルを提案する。
- 参考スコア(独自算出の注目度): 62.93465126911921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large-scale neural autoregressive sequence models have shown
impressive performances on a variety of natural language generation tasks.
However, their generated sequences often exhibit degenerate properties such as
non-termination, undesirable repetition, and premature termination, when
generated with decoding algorithms such as greedy search, beam search, top-$k$
sampling, and nucleus sampling. In this paper, we focus on the problem of
non-terminating sequences resulting from an incomplete decoding algorithm. We
first define an incomplete probable decoding algorithm which includes greedy
search, top-$k$ sampling, and nucleus sampling, beyond the incomplete decoding
algorithm originally put forward by Welleck et al. (2020). We then propose a
non-monotonic self-terminating language model, which significantly relaxes the
constraint of monotonically increasing termination probability in the
originally proposed self-terminating language model by Welleck et al. (2020),
to address the issue of non-terminating sequences when using incomplete
probable decoding algorithms. We prove that our proposed model prevents
non-terminating sequences when using not only incomplete probable decoding
algorithms but also beam search. We empirically validate our model on sequence
completion tasks with various architectures.
- Abstract(参考訳): 最近の大規模神経自己回帰配列モデルは、様々な自然言語生成タスクにおいて印象的な性能を示している。
しかし、それらの生成配列は、greedy search、ビームサーチ、トップ$k$サンプリング、核サンプリングなどの復号アルゴリズムで生成された場合、非終端、望ましくない繰り返し、早期終端などの縮退特性を示すことが多い。
本稿では,不完全復号化アルゴリズムによる非終端列の問題に着目する。
まず,Welleck et al. (2020) が当初提案した不完全復号アルゴリズム以外に,greedy search, top-k$ sample, core sampleを含む不完全復号アルゴリズムを定義した。
次に,Welleck et al. (2020) による当初提案されていた自己終端言語モデルにおいて,単調に増大する終端確率の制約を著しく緩和する非単調な自己終端言語モデルを提案し,不完全確率復号アルゴリズムを用いる場合の非終端シーケンスの問題に対処する。
提案モデルでは,不完全確率復号法だけでなくビーム探索においても,非終端列を防止できることを示す。
各種アーキテクチャを用いたシーケンス完了タスクにおけるモデルの有効性を実証的に検証する。
関連論文リスト
- GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - Uncertainty Determines the Adequacy of the Mode and the Tractability of
Decoding in Sequence-to-Sequence Models [11.258630552727432]
ニューラルシークエンスモデルによって学習された分布のあいまいさ(内在不確実性とも呼ばれる)がどのように形成されるかを分析する。
その結果,ビーム探索誤差の多さ,モードの不十分さ,ビームサイズが大きいシステム性能の低下など,曖昧性の高いタスクに適用できることが示唆された。
論文 参考訳(メタデータ) (2022-04-01T14:30:19Z) - Infinite-Dimensional Sparse Learning in Linear System Identification [0.2867517731896504]
本稿では,原子ノルム正規化に基づく無限次元スパース学習アルゴリズムを提案する。
この問題の解決の難しさは、無限の原子モデルが存在するという事実にある。
論文 参考訳(メタデータ) (2022-03-28T13:18:48Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。