論文の概要: Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation
- arxiv url: http://arxiv.org/abs/2304.07854v1
- Date: Sun, 16 Apr 2023 18:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 16:59:07.096628
- Title: Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation
- Title(参考訳): 中国語の言語モデルに追従するより良い指導に向けて--学習データと評価の影響の検討
- Authors: Yunjie Ji, Yan Gong, Yong Deng, Yiping Peng, Qiang Niu, Baochang Ma,
Xiangang Li
- Abstract要約: 本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
- 参考スコア(独自算出の注目度): 12.86275938443485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant public efforts have been directed towards developing
low-cost models with capabilities akin to ChatGPT, thereby fostering the growth
of open-source conversational models. However, there remains a scarcity of
comprehensive and in-depth evaluations of these models' performance. In this
study, we examine the influence of training data factors, including quantity,
quality, and linguistic distribution, on model performance. Our analysis is
grounded in several publicly accessible, high-quality instruction datasets, as
well as our own Chinese multi-turn conversations. We assess various models
using a evaluation set of 1,000 samples, encompassing nine real-world
scenarios. Our goal is to supplement manual evaluations with quantitative
analyses, offering valuable insights for the continued advancement of
open-source chat models. Furthermore, to enhance the performance and training
and inference efficiency of models in the Chinese domain, we extend the
vocabulary of LLaMA - the model with the closest open-source performance to
proprietary language models like GPT-3 - and conduct secondary pre-training on
3.4B Chinese words. We make our model, data, as well as code publicly
available.
- Abstract(参考訳): 近年,ChatGPTに似た機能を備えた低コストモデルの開発に向けて,大規模な公的な取り組みが進められている。
しかし、これらのモデルの性能に関する包括的かつ深い評価は、まだ乏しいままである。
本研究では,量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
私たちの分析は、公開アクセス可能な、高品質なインストラクションデータセットと、中国のマルチターン会話に基礎を置いている。
実世界の9つのシナリオを包含して,1000サンプルの評価セットを用いて様々なモデルを評価する。
我々の目標は、定量的分析による手動評価を補完し、オープンソースのチャットモデルの継続的な進歩に価値ある洞察を提供することである。
さらに,中国語領域におけるモデルのパフォーマンスとトレーニングと推論効率を向上させるために,llama(オープンソースパフォーマンスに最も近いモデル)の語彙をgpt-3のようなプロプライエタリな言語モデルに拡張し,3.4bの中国語単語で2次事前学習を行う。
モデルやデータだけでなく、コードも公開しています。
関連論文リスト
- Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Panda LLM: Training Data and Evaluation for Open-Sourced Chinese
Instruction-Following Large Language Models [6.725922146703912]
このプロジェクトは、インストラクションチューニングによるオープンソースの大規模言語モデルの強化に焦点を当てている。
本研究では,数量,品質,言語分布などの各種学習データ要素が,学習モデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-04T17:49:09Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - AuGPT: Dialogue with Pre-trained Language Models and Data Augmentation [0.0]
言語モデルファインタニングのための改良された学習目標を提案する。
我々は、トレーニングデータの多様性を高めるために、バックトランスレーションによる大規模なデータ拡張を採用している。
提案モデルは,MultiWOZデータ上での最先端性能を実現し,人間の評価における競合性能を示す。
論文 参考訳(メタデータ) (2021-02-09T20:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。