論文の概要: HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM
- arxiv url: http://arxiv.org/abs/2311.09528v1
- Date: Thu, 16 Nov 2023 03:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:52:04.585124
- Title: HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM
- Title(参考訳): HelpSteer: SteerLM用のマルチ属性ヘルプフルネスデータセット
- Authors: Zhilin Wang, Yi Dong, Jiaqi Zeng, Virginia Adams, Makesh Narsimhan
Sreedhar, Daniel Egert, Olivier Delalleau, Jane Polak Scowcroft, Neel Kant,
Aidan Swope, Oleksii Kuchaiev
- Abstract要約: SteerLMによるHelpSteerデータセットを使用したLlama 270Bのトレーニングでは、MT Benchで7.54スコアのモデルが作成されている。
HelpSteerは、応答を補助するさまざまな側面にアノテートされたマルチ属性の有用なデータセットである。
- 参考スコア(独自算出の注目度): 9.766582733709726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing open-source helpfulness preference datasets do not specify what
makes some responses more helpful and others less so. Models trained on these
datasets can incidentally learn to model dataset artifacts (e.g. preferring
longer but unhelpful responses only due to their length). To alleviate this
problem, we collect HelpSteer, a multi-attribute helpfulness dataset annotated
for the various aspects that make responses helpful. Specifically, our
37k-sample dataset has annotations for correctness, coherence, complexity, and
verbosity in addition to overall helpfulness of responses. Training Llama 2 70B
using the HelpSteer dataset with SteerLM technique produces a model that scores
7.54 on MT Bench, which is currently the highest score for open models that do
not require training data from more powerful models (e.g. GPT4). We release
this dataset with CC-BY-4.0 license at
https://huggingface.co/datasets/nvidia/HelpSteer
- Abstract(参考訳): 既存のオープンソースの有用な嗜好データセットは、何らかのレスポンスをより便利にするものや、そうでないものを特定するものではない。
これらのデータセットでトレーニングされたモデルは、データセットのアーティファクト(例えば、長いが、その長さのためにのみ不完全なレスポンスを好む)をモデルとして学習することができる。
この問題を軽減するために,さまざまな側面にアノテートされた多属性有用なデータセットであるHelpSteerを収集する。
具体的には、我々の37kサンプルデータセットには、応答の全体的な有用性に加えて、正確性、一貫性、複雑さ、冗長性に関するアノテーションがあります。
steerlm技術を用いたヘルプテアーデータセットを用いたllama 2 70bのトレーニングは、mtベンチで7.54のスコアを持つモデルを生成するが、これは現在、より強力なモデル(例えばgpt4)からのトレーニングデータを必要としないオープンモデルの最高スコアである。
私たちはこのデータセットをCC-BY-4.0ライセンスでhttps://huggingface.co/datasets/nvidia/HelpSteerでリリースします。
関連論文リスト
- GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - HelpSteer2: Open-source dataset for training top-performing reward models [9.214886217647157]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。
HelpSteer2は1万のレスポンスペアで構成されている。
本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文 参考訳(メタデータ) (2024-06-12T22:28:08Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - VANiLLa : Verbalized Answers in Natural Language at Large Scale [2.9098477555578333]
このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
論文 参考訳(メタデータ) (2021-05-24T16:57:54Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z) - Have you forgotten? A method to assess if machine learning models have
forgotten data [20.9131206112401]
ディープラーニングの時代において、複数のソースからのデータの集約は、データの多様性を保証するための一般的なアプローチである。
本稿では、モデルによってデータが忘れられたかどうかという課題に対処する。
我々は、ターゲットの出力と異なるデータセットで訓練されたモデルの出力を比較する統計的手法を確立する。
論文 参考訳(メタデータ) (2020-04-21T16:13:45Z) - What do Models Learn from Question Answering Datasets? [2.28438857884398]
モデルが質問応答データセットから読み解きを学習しているかどうかを検討する。
我々は、ドメイン外の例に対する一般化可能性、欠落や不正なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。
読解を通じて質問応答のタスクをよりよく評価する,将来的なQAデータセットの構築を推奨する。
論文 参考訳(メタデータ) (2020-04-07T15:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。