論文の概要: Optimizing Large Language Models for Turkish: New Methodologies in Corpus Selection and Training
- arxiv url: http://arxiv.org/abs/2412.02775v1
- Date: Tue, 03 Dec 2024 19:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:13.345684
- Title: Optimizing Large Language Models for Turkish: New Methodologies in Corpus Selection and Training
- Title(参考訳): トルコ語のための大規模言語モデルの最適化:コーパスの選択と訓練の新しい手法
- Authors: H. Toprak Kesgin, M. Kaan Yuce, Eren Dogan, M. Egemen Uzun, Atahan Uz, Elif Ince, Yusuf Erdem, Osama Shbib, Ahmed Zeer, M. Fatih Amasyali,
- Abstract要約: 大規模言語モデルの生成したデータセットに適応し、英語のデータセットをトルコ語に翻訳する。
このアプローチは、数ショットとゼロショットの両方の学習シナリオにおいて、モデルの精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this study, we develop and assess new corpus selection and training methodologies to improve the effectiveness of Turkish language models. Specifically, we adapted Large Language Model generated datasets and translated English datasets into Turkish, integrating these resources into the training process. This approach led to substantial enhancements in model accuracy for both few-shot and zero-shot learning scenarios. Furthermore, the merging of these adapted models was found to markedly improve their performance. Human evaluative metrics, including task-specific performance assessments, further demonstrated that these adapted models possess a greater aptitude for comprehending the Turkish language and addressing logic-based queries. This research underscores the importance of refining corpus selection strategies to optimize the performance of multilingual models, particularly for under-resourced languages like Turkish.
- Abstract(参考訳): 本研究では,トルコ語モデルの有効性を高めるために,新しいコーパス選択・訓練手法を開発し,評価する。
具体的には、Large Language Modelの生成したデータセットをトルコ語に翻訳し、これらのリソースをトレーニングプロセスに統合した。
このアプローチは、数ショットとゼロショットの両方の学習シナリオにおいて、モデルの精度を大幅に向上させた。
さらに、これらの適応モデルのマージにより、性能が著しく向上することが判明した。
タスク固有のパフォーマンスアセスメントを含む人間の評価指標は、これらの適応されたモデルがトルコ語を解釈し、論理ベースのクエリに対処する適性が高いことをさらに証明した。
本研究は,多言語モデル,特にトルコ語のような低リソース言語の性能を最適化するためのコーパス選択戦略の精細化の重要性を強調した。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Introducing cosmosGPT: Monolingual Training for Turkish Language Models [0.0]
本研究では、この代替手法を用いて作成した宇宙GPTモデルについて紹介する。
次に、ユーザ要求を満たすための基本言語モデルのための新しいファインチューンデータセットと、トルコ語モデルの能力を測定するための新しい評価データセットを導入する。
その結果、モノリンガルコーパスで構築した言語モデルは、他に比べて約10倍小さいにもかかわらず、有望な性能を示した。
論文 参考訳(メタデータ) (2024-04-26T11:34:11Z) - Türkçe Dil Modellerinin Performans Karşılaştırması Performance Comparison of Turkish Language Models [0.0]
文脈学習と質問応答能力に基づいて,選択した7つの言語モデルの比較を行った。
その結果,質問応答では,教師用データセットを微調整する前に事前学習を継続することで,トルコ語に多言語モデルを適用することに成功していることがわかった。
論文 参考訳(メタデータ) (2024-04-25T20:10:14Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Curriculum learning for language modeling [2.2475845406292714]
自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。
これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。
カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
論文 参考訳(メタデータ) (2021-08-04T16:53:43Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。