論文の概要: Rapidly Developing High-quality Instruction Data and Evaluation
Benchmark for Large Language Models with Minimal Human Effort: A Case Study
on Japanese
- arxiv url: http://arxiv.org/abs/2403.03690v1
- Date: Wed, 6 Mar 2024 13:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:06:51.772238
- Title: Rapidly Developing High-quality Instruction Data and Evaluation
Benchmark for Large Language Models with Minimal Human Effort: A Case Study
on Japanese
- Title(参考訳): 人的負担を最小限に抑えた大規模言語モデルの高品質指導データと評価ベンチマークの迅速開発:日本語を事例として
- Authors: Yikun Sun, Zhen Wan, Nobuhiro Ueda, Sakiko Yahata, Fei Cheng, Chenhui
Chu, Sadao Kurohashi
- Abstract要約: GPT-4に基づく効率的な自己指示法を提案する。
まず、少量の英語の指示を日本語に翻訳し、それを後編集して、ネイティブレベルの品質を得る。
GPT-4はそれらをデモとして利用し、日本語の命令データを自動的に生成する。
- 参考スコア(独自算出の注目度): 36.3163608701382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The creation of instruction data and evaluation benchmarks for serving Large
language models often involves enormous human annotation. This issue becomes
particularly pronounced when rapidly developing such resources for a
non-English language like Japanese. Instead of following the popular practice
of directly translating existing English resources into Japanese (e.g.,
Japanese-Alpaca), we propose an efficient self-instruct method based on GPT-4.
We first translate a small amount of English instructions into Japanese and
post-edit them to obtain native-level quality. GPT-4 then utilizes them as
demonstrations to automatically generate Japanese instruction data. We also
construct an evaluation benchmark containing 80 questions across 8 categories,
using GPT-4 to automatically assess the response quality of LLMs without human
references. The empirical results suggest that the models fine-tuned on our
GPT-4 self-instruct data significantly outperformed the Japanese-Alpaca across
all three base pre-trained models. Our GPT-4 self-instruct data allowed the
LLaMA 13B model to defeat GPT-3.5 (Davinci-003) with a 54.37\% win-rate. The
human evaluation exhibits the consistency between GPT-4's assessments and human
preference. Our high-quality instruction data and evaluation benchmark have
been released here.
- Abstract(参考訳): 大きな言語モデルを提供するための命令データと評価ベンチマークの作成は、しばしば巨大な人間のアノテーションを伴う。
この問題は、日本語のような非英語のリソースを急速に発展させるときに特に顕著になる。
本稿では,既存の英語資源を直接日本語に翻訳する手法(例えば日本語-alpaca)ではなく,gpt-4に基づく効率的な自己指示手法を提案する。
まず、少量の英語命令を日本語に翻訳し、編集後、ネイティブレベルの品質を得る。
GPT-4はそれらをデモとして利用し、日本語の命令データを自動的に生成する。
また,8つのカテゴリにまたがる80の質問を含む評価ベンチマークを構築し,gpt-4を用いて人間の参照なしにllmの応答品質を自動的に評価する。
実験結果から, GPT-4の自己指示データに基づいて微調整したモデルが, 日本語とアルパカ語を比較検討した。
我々の GPT-4 自己指示データにより LLaMA 13B モデルは 54.37 % の勝利率で GPT-3.5 (Davinci-003) を破ることができた。
ヒトの評価はGPT-4の評価とヒトの嗜好の整合性を示す。
高品質なインストラクションデータと評価ベンチマークがここでリリースされています。
関連論文リスト
- Generalists vs. Specialists: Evaluating Large Language Models for Urdu [4.8539869147159616]
我々は, GPT-4-Turbo と Llama-3-8b の汎用モデルと, 特殊目的モデル-XLM-Roberta-large, mT5-large, Llama-3-8b を比較した。
我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と7つの世代タスクに焦点を当てる。
論文 参考訳(メタデータ) (2024-07-05T12:09:40Z) - GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation [93.55550787058012]
本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
論文 参考訳(メタデータ) (2024-01-08T18:52:09Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Efficient Finetuning Large Language Models For Vietnamese Chatbot [1.2075778142867704]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。
Alpaca、GPT4All、Chat-Doctorなど、オープンソースの大規模インストラクションフォローデータセットを活用しています。
我々は,低ランク適応(LoRA)によるパラメータ効率チューニングを2つのオープンLLM上で行い,その結果,Bloomz-Chat,Bloomz-Doctor,GPTJ-Chat,GPTJ-Doctorの4つのモデルを得た。
論文 参考訳(メタデータ) (2023-09-09T00:11:53Z) - InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 [14.248735997950446]
InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T11:27:30Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。