論文の概要: Typhoon: Thai Large Language Models
- arxiv url: http://arxiv.org/abs/2312.13951v1
- Date: Thu, 21 Dec 2023 15:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:18:01.553718
- Title: Typhoon: Thai Large Language Models
- Title(参考訳): 台風:タイの大型言語モデル
- Authors: Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul,
Sittipong Sripaisarnmongkol, Ruangsak Patomwong, Pathomporn Chokchainant,
Kasima Tharnpipitchai
- Abstract要約: タイ語(タイ語: Typhoon)は、タイ語向けに開発された大型言語モデルである。
本報告では,タイのLLM開発における課題と知見について述べる。
- 参考スコア(独自算出の注目度): 10.104705021561008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typhoon is a series of Thai large language models (LLMs) developed
specifically for the Thai language. This technical report presents challenges
and insights in developing Thai LLMs, including data preparation, pretraining,
instruction-tuning, and evaluation. As one of the challenges of low-resource
languages is the amount of pretraining data, we apply continual training to
transfer existing world knowledge from a strong LLM. To evaluate the Thai
knowledge encapsulated in each model from the pretraining stage, we develop
ThaiExam, a benchmark based on examinations for high-school students and
investment professionals in Thailand. In addition, we fine-tune Typhoon to
follow Thai instructions, and we evaluate instruction-tuned models on Thai
instruction datasets as well as translation, summarization, and
question-answering tasks. Experimental results on a suite of Thai benchmarks
show that Typhoon outperforms all open-source Thai language models, and its
performance is on par with GPT-3.5 in Thai while having only 7 billion
parameters and being 2.62 times more efficient in tokenizing Thai text.
- Abstract(参考訳): typhoonはタイ語用に開発されたタイの大型言語モデル(llm)のシリーズである。
本技術報告では,タイのLLM開発における課題と知見について述べる。
低リソース言語の課題の1つは、事前学習データの量であるので、我々は、既存の世界知識を強力なLLMから移行するために継続トレーニングを適用します。
事前学習段階から各モデルにカプセル化されたタイの知識を評価するために,タイの高校生と投資専門職の試験に基づくベンチマークであるタイ語examを開発した。
さらに,タイの指示に従う台風を微調整し,タイの指示データセット上での指示調整モデルと翻訳,要約,質問応答タスクを評価する。
タイのベンチマークの一連の実験結果は、タイの台風がすべてのオープンソースのタイ語モデルよりも優れており、その性能はタイのgpt-3.5と同等であり、わずか70億のパラメータを持ち、タイ語のテキストのトークン化の効率は262倍であることを示している。
関連論文リスト
- Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - SeaLLMs -- Large Language Models for Southeast Asia [67.89986877809292]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z) - Multiple Segmentations of Thai Sentences for Neural Machine Translation [6.1335228645093265]
タイ語における単語分割手法の異なる文対を複製することにより、タイ語並列データの集合を拡大する方法を示す。
実験によると、これらのデータセットを組み合わせることで、教師付き分割ツールを使用して分割されたデータセットでトレーニングされたNMTモデルのパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2020-04-23T21:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。