論文の概要: PhoGPT: Generative Pre-training for Vietnamese
- arxiv url: http://arxiv.org/abs/2311.02945v3
- Date: Fri, 22 Mar 2024 12:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:40:07.970898
- Title: PhoGPT: Generative Pre-training for Vietnamese
- Title(参考訳): PhoGPT: ベトナムのためのジェネレーティブプレトレーニング
- Authors: Dat Quoc Nguyen, Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen, Dinh Phung, Hung Bui,
- Abstract要約: ベトナム語のための4Bパラメータ生成モデルシリーズをオープンソースとして公開し,PhoGPT-4Bとそのチャット変種であるPhoGPT-4B-Chatをベースとした単言語モデルPhoGPT-4Bを含む。
ベースモデルであるPhoGPT-4Bはベトナムの102Bトークンのスクラッチから事前訓練され、8192コンテキスト長の20480トークンの語彙を使用する。
チャット変種であるPhoGPT-4B-Chatは、70K命令プロンプトのデータセット上でPhoGPT-4Bを微調整して得られるモデリング出力である。
- 参考スコア(独自算出の注目度): 19.27470257618121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We open-source a state-of-the-art 4B-parameter generative model series for Vietnamese, which includes the base pre-trained monolingual model PhoGPT-4B and its chat variant, PhoGPT-4B-Chat. The base model, PhoGPT-4B, with exactly 3.7B parameters, is pre-trained from scratch on a Vietnamese corpus of 102B tokens, with an 8192 context length, employing a vocabulary of 20480 token types. The chat variant, PhoGPT-4B-Chat, is the modeling output obtained by fine-tuning PhoGPT-4B on a dataset of 70K instructional prompts and their responses, along with an additional 290K conversations. In addition, we also demonstrate its superior performance compared to previous open-source models. Our PhoGPT models are available at: https://github.com/VinAIResearch/PhoGPT
- Abstract(参考訳): 我々はベトナム語のための最先端の4Bパラメータ生成モデルシリーズをオープンソースとして公開し、基礎となる訓練済み単言語モデルPhoGPT-4Bとそのチャット変種であるPhoGPT-4B-Chatを含む。
ベースモデルであるPhoGPT-4Bは、正確に3.7Bパラメータを持つが、ベトナムの102Bトークンのコーパスのスクラッチから事前訓練されており、文脈長は8192で、20480トークンの語彙を使用している。
チャットの変種であるPhoGPT-4B-Chatは、70Kの命令プロンプトとその応答のデータセット上でPhoGPT-4Bを微調整し、290Kの会話を追加することによって得られるモデリング出力である。
また,従来のオープンソースモデルと比較して優れた性能を示す。
私たちのPhoGPTモデルは、https://github.com/VinAIResearch/PhoGPTで利用可能です。
関連論文リスト
- Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Rapidly Developing High-quality Instruction Data and Evaluation
Benchmark for Large Language Models with Minimal Human Effort: A Case Study
on Japanese [36.3163608701382]
GPT-4に基づく効率的な自己指示法を提案する。
まず、少量の英語の指示を日本語に翻訳し、それを後編集して、ネイティブレベルの品質を得る。
GPT-4はそれらをデモとして利用し、日本語の命令データを自動的に生成する。
論文 参考訳(メタデータ) (2024-03-06T13:17:07Z) - Shepherd: A Critic for Language Model Generation [72.24142023628694]
Shepherdは、応答を批判し、改善を提案するために特別に調整された言語モデルである。
このアプローチのコアとなるのは、コミュニティからのフィードバックと人間のアノテーションからキュレートした、高品質なフィードバックデータセットです。
人間の評価では、Shepherdは他のモデルを厳密に上回り、ChatGPTと密接な関係にある。
論文 参考訳(メタデータ) (2023-08-08T21:23:23Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - ViDeBERTa: A powerful pre-trained language model for Vietnamese [10.000783498978604]
本稿ではベトナム語のための単言語モデルViDeBERTaについて述べる。
ViDeBERTa_xsmall、ViDeBERTa_base、ViDeBERTa_largeの3つのバージョンは、高品質で多様なベトナム語テキストの大規模コーパスで事前訓練されている。
我々は,3つの重要な自然言語下流タスク,パート・オブ・音声タギング,名前付き親和性認識,質問応答を微調整し,評価する。
論文 参考訳(メタデータ) (2023-01-25T07:26:54Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech
tagging, named entity recognition and dependency parsing [8.558842542068778]
PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。
ベトナムのベンチマークデータセットの実験は、PhoNLPが最先端の結果を生成することを示している。
論文 参考訳(メタデータ) (2021-01-05T12:13:09Z) - PhoBERT: Pre-trained language models for Vietnamese [11.685916685552982]
PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
論文 参考訳(メタデータ) (2020-03-02T10:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。