論文の概要: Typhoon: Thai Large Language Models
- arxiv url: http://arxiv.org/abs/2312.13951v1
- Date: Thu, 21 Dec 2023 15:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:18:01.553718
- Title: Typhoon: Thai Large Language Models
- Title(参考訳): 台風:タイの大型言語モデル
- Authors: Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul,
Sittipong Sripaisarnmongkol, Ruangsak Patomwong, Pathomporn Chokchainant,
Kasima Tharnpipitchai
- Abstract要約: タイ語(タイ語: Typhoon)は、タイ語向けに開発された大型言語モデルである。
本報告では,タイのLLM開発における課題と知見について述べる。
- 参考スコア(独自算出の注目度): 10.104705021561008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typhoon is a series of Thai large language models (LLMs) developed
specifically for the Thai language. This technical report presents challenges
and insights in developing Thai LLMs, including data preparation, pretraining,
instruction-tuning, and evaluation. As one of the challenges of low-resource
languages is the amount of pretraining data, we apply continual training to
transfer existing world knowledge from a strong LLM. To evaluate the Thai
knowledge encapsulated in each model from the pretraining stage, we develop
ThaiExam, a benchmark based on examinations for high-school students and
investment professionals in Thailand. In addition, we fine-tune Typhoon to
follow Thai instructions, and we evaluate instruction-tuned models on Thai
instruction datasets as well as translation, summarization, and
question-answering tasks. Experimental results on a suite of Thai benchmarks
show that Typhoon outperforms all open-source Thai language models, and its
performance is on par with GPT-3.5 in Thai while having only 7 billion
parameters and being 2.62 times more efficient in tokenizing Thai text.
- Abstract(参考訳): typhoonはタイ語用に開発されたタイの大型言語モデル(llm)のシリーズである。
本技術報告では,タイのLLM開発における課題と知見について述べる。
低リソース言語の課題の1つは、事前学習データの量であるので、我々は、既存の世界知識を強力なLLMから移行するために継続トレーニングを適用します。
事前学習段階から各モデルにカプセル化されたタイの知識を評価するために,タイの高校生と投資専門職の試験に基づくベンチマークであるタイ語examを開発した。
さらに,タイの指示に従う台風を微調整し,タイの指示データセット上での指示調整モデルと翻訳,要約,質問応答タスクを評価する。
タイのベンチマークの一連の実験結果は、タイの台風がすべてのオープンソースのタイ語モデルよりも優れており、その性能はタイのgpt-3.5と同等であり、わずか70億のパラメータを持ち、タイ語のテキストのトークン化の効率は262倍であることを示している。
関連論文リスト
- OpenThaiGPT 1.5: A Thai-Centric Open Source Large Language Model [0.0]
OpenThaiGPT 1.5はQwen v2.5をベースにした高度なタイ語チャットモデルである。
このレポートは、モデルの開発、能力、パフォーマンスに関する工学的な視点を提供する。
論文 参考訳(メタデータ) (2024-11-11T18:58:46Z) - Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models [8.746788828655356]
大規模言語モデル(LLM)の急速な進歩は、堅牢な評価フレームワークの必要性を強調している。
タイ文化・言語情報ベンチマーク(ThaiCLI)とタイ文化・言語情報ベンチマーク(ThaiCLI)の2つの主要なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-07T07:14:37Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - ThaiCoref: Thai Coreference Resolution Dataset [0.07852714805965527]
ThaiCorefは、タイのコア参照解決のためのデータセットである。
データセットは、777,271のトークン、44,082の参照、および4つのテキストジャンルの10,429のエンティティで構成されています。
論文 参考訳(メタデータ) (2024-06-10T03:47:24Z) - Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning [0.0]
本研究は、タイ語の文脈における常識推論能力を評価するために設計された新しいデータセットである、タイ語におけるウィノグラードのコレクションを紹介する。
我々は,このベンチマークで人気の高い大規模言語モデルの性能を評価し,その強み,限界を明らかにし,現在の最先端技術に対する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T17:14:02Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。