論文の概要: A Theoretical Analysis of the Repetition Problem in Text Generation
- arxiv url: http://arxiv.org/abs/2012.14660v4
- Date: Mon, 22 Mar 2021 02:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:39:37.369113
- Title: A Theoretical Analysis of the Repetition Problem in Text Generation
- Title(参考訳): テキスト生成における繰り返し問題に関する理論的解析
- Authors: Zihao Fu, Wai Lam, Anthony Man-Cho So, Bei Shi
- Abstract要約: 我々は、繰り返しの問題が、残念ながら、我々の言語自体の特性によって引き起こされていることを示す。
一つの大きな理由は、その後の単語と同じ単語を高い確率で予測する単語が多すぎるという事実に起因する。
高インフロー問題を軽減するための新しい再バランス符号化手法を提案する。
- 参考スコア(独自算出の注目度): 55.8184629429347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text generation tasks, including translation, summarization, language models,
and etc. see rapid growth during recent years. Despite the remarkable
achievements, the repetition problem has been observed in nearly all text
generation models undermining the generation performance extensively. To solve
the repetition problem, many methods have been proposed, but there is no
existing theoretical analysis to show why this problem happens and how it is
resolved. In this paper, we propose a new framework for theoretical analysis
for the repetition problem. We first define the Average Repetition Probability
(ARP) to characterize the repetition problem quantitatively. Then, we conduct
an extensive analysis of the Markov generation model and derive several upper
bounds of the average repetition probability with intuitive understanding. We
show that most of the existing methods are essentially minimizing the upper
bounds explicitly or implicitly. Grounded on our theory, we show that the
repetition problem is, unfortunately, caused by the traits of our language
itself. One major reason is attributed to the fact that there exist too many
words predicting the same word as the subsequent word with high probability.
Consequently, it is easy to go back to that word and form repetitions and we
dub it as the high inflow problem. Furthermore, we derive a concentration bound
of the average repetition probability for a general generation model. Finally,
based on the theoretical upper bounds, we propose a novel rebalanced encoding
approach to alleviate the high inflow problem. The experimental results show
that our theoretical framework is applicable in general generation models and
our proposed rebalanced encoding approach alleviates the repetition problem
significantly. The source code of this paper can be obtained from
https://github.com/fuzihaofzh/repetition-problem-nlg.
- Abstract(参考訳): 翻訳、要約、言語モデルなどを含むテキスト生成タスク。
近年急速に成長しています
顕著な成果にもかかわらず、ほぼ全てのテキスト生成モデルで繰り返し問題が観測され、世代性能を損なうことになった。
繰り返し問題を解くために、多くの方法が提案されているが、なぜこの問題が起きたのか、どのように解決されたのかを示す理論的解析は存在しない。
本稿では,繰り返し問題に対する理論解析のための新しい枠組みを提案する。
まず,繰り返し問題を定量的に特徴付けるために,平均反復確率(ARP)を定義した。
次に,マルコフ生成モデルの広範囲な解析を行い,直観的な理解により平均反復確率のいくつかの上限を導出する。
既存の手法のほとんどは、上界を明示的にあるいは暗黙的に最小化している。
我々の理論に基づいて、反復問題は残念ながら、言語そのものの特徴によって引き起こされることを示している。
一つの大きな理由として、次の単語と同じ単語を高い確率で予測する単語が多すぎることが挙げられる。
したがって、その単語に戻り、繰り返しを形成することは容易であり、高い流入問題としてそれを掘り下げる。
さらに、一般生成モデルにおける平均反復確率の濃度境界を導出する。
最後に,理論上の上限に基づいて,高流入問題を軽減するための新しい再平衡符号化手法を提案する。
実験結果から,我々の理論フレームワークは一般モデルに適用可能であることが示され,提案手法は繰り返し問題を大幅に緩和する。
本論文のソースコードはhttps://github.com/fuzihaofzh/repetition-problem-nlgから取得できる。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language
Models [45.01562498702836]
CoT(Chain-of-Thought)は、中間ステップを生成することで、大規模言語モデルによる複雑な推論問題の解決を可能にする。
本稿では,再帰的思考過程を模倣する分割・対数型アルゴリズムであるSOCRATIC QUESTIONINGを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:36:14Z) - Learning to Break the Loop: Analyzing and Mitigating Repetitions for
Neural Text Generation [41.3948101212288]
本稿では,反復トークンの確率と,その文脈における過去の繰り返しとの関係について検討する。
擬似反復データから文レベルの繰り返しの確率をペナルティ化する訓練手法を提案する。
論文 参考訳(メタデータ) (2022-06-06T05:51:12Z) - End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文 参考訳(メタデータ) (2022-02-11T18:43:28Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。