論文の概要: B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile
e\u{g}itilmesi ve ince ayarlanmas\i
- arxiv url: http://arxiv.org/abs/2306.03978v1
- Date: Tue, 6 Jun 2023 19:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:17:15.713057
- Title: B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile
e\u{g}itilmesi ve ince ayarlanmas\i
- Title(参考訳): B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile e\u{g}itilmesi ve ince ayarlanmas\i
- Authors: A. Taha Arslan
- Abstract要約: 大規模な言語モデルは飛躍的に進歩し、大きな注目を集め、激しい研究の段階にある。
トルコ語に関しては、オープンアクセスモデルは十分なカバレッジを提供していない。
本稿では,トルコの大規模なデータセットの作成,これらを用いたLLMのトレーニング,トルコ語入力による事前学習モデルの微調整など,この問題を軽減するためのアイデアを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have advanced enormously, gained vast attraction and
are having a phase of intensed research. Some of the developed models and
training datasets have been made open-accessible. Hence these may be further
fine-tuned with some techniques to obtain specialized models for specific
tasks. When it comes to Turkish language, open-access models do not provide
satisfactory coverage. This is also observed over published datasets. In this
work, we propose some ideas to mitigate this issue: creating large Turkish
datasets, training LLMs with these and fine-tuning pre-trained models with
Turkish inputs. We report our findings on Turkish-based trainings with the
problems encountered along the way. We conclude with outcomes of these
experiments and propose ideas for further works.
--
B\"uy\"uk dil modelleri inan{\i}lmaz \"ol\c{c}\"ude geli\c{s}mekte, b\"uy\"uk
ilgi toplayarak ve \"uzerlerinde yo\u{g}un ara\c{s}tirmalarin yapildi\u{g}i bir
d\"onemdedirler. Geli\c{s}tirilen modeller ve e\u{g}itimde kullanilan
verisetlerinden bazilari a\c{c}ik eri\c{s}imli olarak sunulmaktadir. B\"oylece
ince ayarlama teknikleri uygulayarak \"ozelle\c{s}mi\c{s} g\"orevler i\c{c}in
\c{c}ali\c{s}abilir modeller elde edilmektedir. T\"urk\c{c}e s\"oz konusu
oldu\u{g}unda bu modellerinin kapsayicili\u{g}i yeterli d\"uzeyde de\u{g}ildir.
Bu durum, yayimlanan verisetlerinde de g\"ozlemlenebilir. Bunu a\c{s}manin
yollari T\"urk\c{c}e i\c{c}erikli b\"uy\"uk verisetlerinin olu\c{s}turulmasi,
b\"uy\"uk dil modellerinin bunlarla e\u{g}itilmesi ve \"onceden
e\u{g}itilmi\c{s} modellerin T\"urk\c{c}e girdilerle ince ayarlanmalari
olabilir. Bu \c{c}ali\c{s}mada a\c{c}ik eri\c{s}imli dil modelleri ve
verisetleri \"uzerinde durulmakta ve T\"urk\c{c}e temelli bazi deneyler,
kar\c{s}ila\c{s}ilan sorunlar ve sonu\c{c}lar irdelenmektedir.
- Abstract(参考訳): 大規模な言語モデルは非常に進歩し、大きな注目を集め、激しい研究の段階にある。
開発されたモデルとトレーニングデータセットの一部がオープンアクセス可能になった。
したがって、これらは特定のタスクのための特別なモデルを得るためにいくつかの技術でさらに微調整される可能性がある。
トルコ語に関しては、オープンアクセスモデルは十分なカバレッジを提供していない。
これは、公開データセットでも観察される。
本研究では,トルコの大規模なデータセットの作成,これらを用いたLLMのトレーニング,トルコ語入力による学習済みモデルの微調整など,この問題を軽減するためのアイデアを提案する。
本報告では,トルコの教育における問題点について報告する。
我々はこれらの実験の結果をまとめ、さらなる研究のためのアイデアを提案する。
-B\\uy\"uk dil modelleri inan{\i}lmaz \"ol\c{c}\"ude geli\c{s}mekte, b\"uy\"uk ilgi toplayarak ve \"uzerlerinde yo\u{g}un ara\c{s}tirmalarin yapildi\u{g}i bir d\"onemddirler。
geli\c{s}tirilen modeller ve e\u{g}itimde kullanilan verisetlerinden bazilari a\c{c}ik eri\c{s}imli olarak sunulmaktadir
b\"oylece ince ayarlama teknikleri uygulayarak \"ozelle\c{s}mi\c{s} g\"orevler i\c{c}in \c{c}ali\c{s}abilir modeller elde edilmektedir
T\"urk\c{c}e s\"oz konusu oldu\u{g}unda bu modellerinin kapsayicili\u{g}i yeterli d\"uzeyde de\u{g}ildir。
ブ・ドゥラム(bu durum, yayimlanan verisetlerinde de g\"ozlemlenebilir)。
Bunu a\c{s}manin yollari T\"urk\c{c}e i\c{c}erikli b\"uy\"uk verisetlerinin olu\c{s}turulmasi, b\"uy\"uk dil modellerinin bunlarla e\u{g}itilmesi ve \"onceden e\u{g}itilmi\c{s} modellerin T\"urk\c{c}e girdilerle ince ayarlanmalari olabilir.
Bu \c{c}ali\c{s}mada a\c{c}ik eri\c{s}imli dil modelleri ve verisetleri \"uzerinde durulmakta ve T\"urk\c{c}e temelli bazi deneyler, kar\c{s}ila\c{s}ilan sorunlar ve sonu\c{c}lar irdelenmektedir。
関連論文リスト
- ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine
Translation [38.30649186517611]
この課題はtextbfunderlineAuto-textbfunderlineConstriction textbfunderlineTurning mechanism for textbfunderlineMultilingual textbfunderlineNeural textbfunderlineMachine textbfunderlineTranslation (model)を導入している。
論文 参考訳(メタデータ) (2024-03-11T14:10:57Z) - Advances and Limitations in Open Source Arabic-Script OCR: A Case Study [0.8192907805418583]
この研究は、アラビア語の学術雑誌『al-Abhath』でオープンソースのOCRエンジン『Kraken』の精度調査を行っている。
この研究は、al-Abhathデータに基づいて、フォント固有および一般化されたモデルの相対的精度を評価し、エラーインスタンスのマイクロ分析と、OCRの誤認識に寄与した可能性のあるコンテキスト特徴を提供する。
論文 参考訳(メタデータ) (2024-02-08T12:51:36Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Meta-tuning Language Models to Answer Prompts Better [35.71265221884353]
GPT-3のような大規模事前訓練言語モデルは、ゼロショット分類(ZSC)を実行する驚くべき能力を獲得した
提案するメタチューニングは,応答プロンプトに特化するようにモデルをトレーニングするが,未知のタスクに一般化する。
メタチューニングの後、私たちのモデルは、見えないタスクのほとんどのラベルで同じサイズのQAモデルよりも優れています。
論文 参考訳(メタデータ) (2021-04-10T02:57:22Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。