論文の概要: The Curious Decline of Linguistic Diversity: Training Language Models on
Synthetic Text
- arxiv url: http://arxiv.org/abs/2311.09807v1
- Date: Thu, 16 Nov 2023 11:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:47:11.224508
- Title: The Curious Decline of Linguistic Diversity: Training Language Models on
Synthetic Text
- Title(参考訳): 言語多様性の奇妙な衰退--合成テキストを用いた言語モデルの訓練
- Authors: Yanzhu Guo, Guokan Shang, Michalis Vazirgiannis and Chlo\'e Clavel
- Abstract要約: 本研究では,前任者が生成した合成データに対する大規模言語モデルの学習結果について検討する。
その結果,連続反復によるモデル出力の多様性の顕著な低下が判明した。
- 参考スコア(独自算出の注目度): 23.30043472937699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the consequences of training large language models
(LLMs) on synthetic data generated by their predecessors, an increasingly
prevalent practice aimed at addressing the limited supply of human-generated
training data. Diverging from the usual emphasis on performance metrics, we
focus on the impact of this training methodology on linguistic diversity,
especially when conducted recursively over time. To assess this, we developed a
set of novel metrics targeting lexical, syntactic, and semantic diversity,
applying them in recursive fine-tuning experiments across various natural
language generation tasks. Our findings reveal a marked decrease in the
diversity of the models' outputs through successive iterations. This trend
underscores the potential risks of training LLMs on predecessor-generated text,
particularly concerning the preservation of linguistic richness. Our study
highlights the need for careful consideration of the long-term effects of such
training approaches on the linguistic capabilities of LLMs.
- Abstract(参考訳): 本研究では,前任者が生成した合成データに対する大規模言語モデル(llm)の学習結果について検討する。
通常、パフォーマンスメトリクスに重点を置きながら、このトレーニング方法論が言語多様性に与える影響、特に時間とともに繰り返し実行される場合に焦点を当てます。
これを評価するために, 語彙, 構文, 意味の多様性を対象とする新しい指標を開発し, 様々な自然言語生成タスクにおける再帰的微調整実験に適用した。
その結果,連続反復によるモデル出力の多様性の顕著な低下が判明した。
この傾向は、特に言語豊かさの保存に関して、前者生成テキスト上でLLMを訓練する潜在的なリスクを浮き彫りにする。
本研究は,LLMの言語能力に対する訓練アプローチの長期的影響を慎重に検討することの必要性を強調した。
関連論文リスト
- On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - Language Models as Models of Language [0.0]
この章は、理論言語学への現代言語モデルの潜在的貢献について批判的に考察する。
言語モデルが階層的な構文構造を学習し,様々な言語現象に対する感受性を示すことを示唆する経験的証拠の蓄積を概説する。
私は、理論言語学者と計算研究者の緊密な協力が貴重な洞察をもたらすと結論づける。
論文 参考訳(メタデータ) (2024-08-13T18:26:04Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。