論文の概要: How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources
- arxiv url: http://arxiv.org/abs/2306.04751v2
- Date: Mon, 30 Oct 2023 20:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:42:09.017871
- Title: How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources
- Title(参考訳): ラクダはどこまで行けますか。
オープンリソースのインストラクションチューニングの現状を探る
- Authors: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot,
Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz
Beltagy, Hannaneh Hajishirzi
- Abstract要約: この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
- 参考スコア(独自算出の注目度): 117.6496550359768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we explore recent advances in instruction-tuning language models
on a range of open instruction-following datasets. Despite recent claims that
open models can be on par with state-of-the-art proprietary models, these
claims are often accompanied by limited evaluation, making it difficult to
compare models across the board and determine the utility of various resources.
We provide a large set of instruction-tuned models from 6.7B to 65B parameters
in size, trained on 12 instruction datasets ranging from manually curated
(e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and
systematically evaluate them on their factual knowledge, reasoning,
multilinguality, coding, and open-ended instruction following abilities through
a collection of automatic, model-based, and human-based metrics. We further
introduce T\"ulu, our best performing instruction-tuned model suite finetuned
on a combination of high-quality open resources. Our experiments show that
different instruction-tuning datasets can uncover or enhance specific skills,
while no single dataset (or combination) provides the best performance across
all evaluations. Interestingly, we find that model and human preference-based
evaluations fail to reflect differences in model capabilities exposed by
benchmark-based evaluations, suggesting the need for the type of systemic
evaluation performed in this work. Our evaluations show that the best model in
any given evaluation reaches on average 87% of ChatGPT performance, and 73% of
GPT-4 performance, suggesting that further investment in building better base
models and instruction-tuning data is required to close the gap. We release our
instruction-tuned models, including a fully finetuned 65B T\"ulu, along with
our code, data, and evaluation framework at
https://github.com/allenai/open-instruct to facilitate future research.
- Abstract(参考訳): 本研究では,オープン命令追従データセットを用いた命令チューニング言語モデルの最近の進歩について検討する。
オープンモデルは最先端のプロプライエタリモデルと同等であるという最近の主張にもかかわらず、これらの主張はしばしば限定的な評価を伴っており、ボード全体の比較と様々なリソースの有用性の決定が困難である。
我々は、6.7Bから65Bのパラメータから、手作業によるキュレート(OpenAssistantなど)から合成・蒸留(Alpacaなど)までの12の命令データセットをトレーニングし、それらの事実的知識、推論、多言語性、コーディング、そして、自動的、モデルベース、人間ベースのメトリクスの収集を通じて、それらを体系的に評価する。
さらに、高品質なオープンリソースの組み合わせを微調整した命令調整モデルスイートであるT\"uluを紹介します。
我々の実験では、異なる命令チューニングデータセットは特定のスキルを解明または拡張できるが、単一のデータセット(または組み合わせ)はすべての評価で最高のパフォーマンスを提供する。
興味深いことに、モデルと人間の嗜好に基づく評価は、ベンチマークベースの評価で表されるモデル能力の違いを反映せず、本研究で実施されるシステム評価のタイプの必要性が示唆されている。
評価の結果,ChatGPTの性能は平均87%,GPT-4性能は73%であり,このギャップを埋めるためには,より良いベースモデルの構築と指導訓練データの構築にさらなる投資が必要であることが示唆された。
我々は、65B T\"uluを完全に微調整したモデルと、将来の研究を促進するためのコード、データ、評価フレームワークをhttps://github.com/allenai/open-instructでリリースしています。
関連論文リスト
- Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Harnessing the Power of David against Goliath: Exploring Instruction
Data Generation without Using Closed-Source Models [32.41573520305861]
クローズドソースモデルに依存しない高品質な命令データを生成するための代替手法を検討する。
2つのベンチマークとGPT-4モデルによる評価結果から,生成した命令データの有効性が示された。
論文 参考訳(メタデータ) (2023-08-24T11:07:47Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。