論文の概要: OpenThaiGPT 1.5: A Thai-Centric Open Source Large Language Model
- arxiv url: http://arxiv.org/abs/2411.07238v1
- Date: Mon, 11 Nov 2024 18:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:08.183567
- Title: OpenThaiGPT 1.5: A Thai-Centric Open Source Large Language Model
- Title(参考訳): OpenThaiGPT 1.5: タイ中心のオープンソース大規模言語モデル
- Authors: Sumeth Yuenyong, Kobkrit Viriyayudhakorn, Apivadee Piyatumrong, Jillaphat Jaroenkantasima,
- Abstract要約: OpenThaiGPT 1.5はQwen v2.5をベースにした高度なタイ語チャットモデルである。
このレポートは、モデルの開発、能力、パフォーマンスに関する工学的な視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: OpenThaiGPT 1.5 is an advanced Thai language chat model based on Qwen v2.5, finetuned on over 2,000,000 Thai instruction pairs. This report provides an engineering perspective on the model's development, capabilities, and performance. We discuss the model's architecture, training process, and key features, including multi-turn conversation support, Retrieval Augmented Generation (RAG) compatibility, and tool-calling functionality. Benchmark results demonstrate OpenThaiGPT 1.5's state-of-the-art performance on various Thai language tasks, outperforming other open-source Thai language models. We also address practical considerations such as GPU memory requirements and deployment strategies.
- Abstract(参考訳): OpenThaiGPT 1.5は、Qwen v2.5をベースにした高度なタイ語チャットモデルである。
このレポートは、モデルの開発、能力、パフォーマンスに関する工学的な視点を提供する。
本稿では,マルチターン会話のサポート,RAG(Retrieval Augmented Generation)との互換性,ツールコール機能など,モデルのアーキテクチャ,トレーニングプロセス,重要な機能について論じる。
ベンチマークの結果は、OpenThaiGPT 1.5の様々なタイ語タスクにおける最先端のパフォーマンスを示し、他のオープンソースのタイ語モデルを上回っている。
また、GPUメモリ要件やデプロイメント戦略といった実践的な考慮事項にも対処する。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - ChuXin: 1.6B Technical Report [7.03872473285061]
ChuXinは16億のパラメータを持つ完全にオープンソースな言語モデルである。
トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて用意しました。
論文 参考訳(メタデータ) (2024-05-08T05:54:44Z) - Sailor: Open Language Models for South-East Asia [31.8422378772881]
Sailor(セイラー)は、東南アジア(SEA)言語向けに作られたオープン言語モデルである。
セイラーモデルは200Bから400Bのトークンを受け取り、主に英語、中国語、ベトナム語、タイ語、インドネシア語、マレー語、ラオス語をカバーしている。
論文 参考訳(メタデータ) (2024-04-04T17:31:32Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - TechGPT-2.0: A large language model project to solve the task of
knowledge graph construction [31.638140593358433]
TechGPT-2.0は知識グラフ構築タスクにおける大規模言語モデルの能力を高めるために設計されたプロジェクトである。
特に医学や法律の分野において、堅牢なテキスト処理能力を示す。
TechGPT-2.0はHuaweiのAscendサーバでトレーニングされている。
論文 参考訳(メタデータ) (2024-01-09T11:52:58Z) - Typhoon: Thai Large Language Models [10.104705021561008]
タイ語(タイ語: Typhoon)は、タイ語向けに開発された大型言語モデルである。
本報告では,タイのLLM開発における課題と知見について述べる。
論文 参考訳(メタデータ) (2023-12-21T15:38:41Z) - Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco
vs Bard vs ChatGPT -- A Text-to-SQL Parsing Comparison [18.092211166785397]
近年、GPT-3.5やGPT-4に近い性能を主張するモデルが多数出現している。
人気の高い6つの大言語モデルを互いに比較し、9つのベンチマークデータセットでテキスト対パース機能を体系的に評価します。
オープンソースモデルはGPT-3.5のようなクローズドソースモデルによって達成された性能を著しく低下させ、これらのモデル間のパフォーマンスギャップを埋めるためのさらなる作業の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-16T08:52:41Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。