Fugu-MT 論文翻訳(概要): The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text

論文の概要: The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text

arxiv url: http://arxiv.org/abs/2311.09807v2
Date: Tue, 16 Apr 2024 15:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 23:55:11.791489
Title: The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text
Title（参考訳）: 言語多様性の急激な衰退--合成テキストを用いた言語モデルの訓練
Authors: Yanzhu Guo, Guokan Shang, Michalis Vazirgiannis, Chloé Clavel,
Abstract要約: 本研究では,前任者が生成した合成データに対する学習言語モデルの影響について検討した。その結果,連続反復によるモデル出力の多様性の連続的な低下が明らかとなった。本研究は,言語モデルの言語能力に対する訓練手法の長期的影響を慎重に検討することの必要性を強調した。
参考スコア（独自算出の注目度）: 29.586404361715054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study investigates the consequences of training language models on synthetic data generated by their predecessors, an increasingly prevalent practice given the prominence of powerful generative models. Diverging from the usual emphasis on performance metrics, we focus on the impact of this training methodology on linguistic diversity, especially when conducted recursively over time. To assess this, we adapt and develop a set of novel metrics targeting lexical, syntactic, and semantic diversity, applying them in recursive finetuning experiments across various natural language generation tasks in English. Our findings reveal a consistent decrease in the diversity of the model outputs through successive iterations, especially remarkable for tasks demanding high levels of creativity. This trend underscores the potential risks of training language models on synthetic text, particularly concerning the preservation of linguistic richness. Our study highlights the need for careful consideration of the long-term effects of such training approaches on the linguistic capabilities of language models.
Abstract（参考訳）: 本研究では,前任者が生成する合成データに対する学習言語モデルの影響について検討した。通常、パフォーマンス指標に重点を置いていることから、このトレーニング方法論が言語多様性に与える影響、特に時間とともに再帰的に実施する場合に着目する。これを評価するために、語彙、構文、意味の多様性をターゲットとした新しいメトリクスのセットを開発し、それらを英語の様々な自然言語生成タスクにおける再帰的な微調整実験に適用する。その結果, 連続反復によるモデル出力の多様性が一貫した低下を示し, 特に高レベルの創造性を必要とするタスクにおいて顕著であった。この傾向は、特に言語豊かさの保存に関して、合成テキスト上での学習言語モデルの潜在的なリスクを浮き彫りにしている。本研究は,言語モデルの言語能力に対する訓練手法の長期的影響を慎重に検討することの必要性を強調した。

関連論文リスト

Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文参考訳（メタデータ） (2024-12-23T10:23:47Z)
On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文参考訳（メタデータ） (2024-10-04T14:08:02Z)
Language Models as Models of Language [0.0]
この章は、理論言語学への現代言語モデルの潜在的貢献について批判的に考察する。言語モデルが階層的な構文構造を学習し,様々な言語現象に対する感受性を示すことを示唆する経験的証拠の蓄積を概説する。私は、理論言語学者と計算研究者の緊密な協力が貴重な洞察をもたらすと結論づける。
論文参考訳（メタデータ） (2024-08-13T18:26:04Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文参考訳（メタデータ） (2022-05-23T09:25:43Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文参考訳（メタデータ） (2021-06-16T18:13:55Z)
Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文参考訳（メタデータ） (2021-05-31T20:13:44Z)
Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文参考訳（メタデータ） (2020-05-30T22:14:46Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。