論文の概要: #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2308.07074v2
- Date: Tue, 15 Aug 2023 07:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:41:06.756883
- Title: #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of
Large Language Models
- Title(参考訳): #InsTag:大規模言語モデルの教師付き微調整解析のためのインストラクションタグ
- Authors: Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi
Tan, Chang Zhou, Jingren Zhou
- Abstract要約: 本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けする,オープンセットのきめ細かいタグタグであるInsTagを提案する。
我々は、人気のあるオープンソースSFTデータセットを分析し、モデル能力がより多種多様な複雑なデータで成長することを発見した。
結果として得られたモデルであるTagLMは、MT-Benchによって評価されたかなり大きなSFTデータに基づいて、オープンソースモデルより優れている。
- 参考スコア(独自算出の注目度): 83.80695137230134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation language models obtain the instruction-following ability through
supervised fine-tuning (SFT). Diversity and complexity are considered critical
factors of a successful SFT dataset, while their definitions remain obscure and
lack quantitative analyses. In this work, we propose InsTag, an open-set
fine-grained tagger, to tag samples within SFT datasets based on semantics and
intentions and define instruction diversity and complexity regarding tags. We
obtain 6.6K tags to describe comprehensive user queries. Then we analyze
popular open-sourced SFT datasets and find that the model ability grows with
more diverse and complex data. Based on this observation, we propose a data
selector based on InsTag to select 6K diverse and complex samples from
open-source datasets and fine-tune models on InsTag-selected data. The
resulting models, TagLM, outperform open-source models based on considerably
larger SFT data evaluated by MT-Bench, echoing the importance of query
diversity and complexity. We open-source InsTag in
https://github.com/OFA-Sys/InsTag.
- Abstract(参考訳): 基礎言語モデルは教師付き微調整(sft)により命令追従能力を得る。
多様性と複雑性は、SFTデータセットの成功の重要な要因と考えられているが、その定義はあいまいであり、定量分析が欠如している。
本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けし,タグに関する命令の多様性と複雑性を定義するための,オープンセットのきめ細かいタグであるInsTagを提案する。
包括的ユーザクエリを記述するための6.6Kタグを取得する。
そして、人気のあるオープンソースsftデータセットを分析し、モデル能力がより多様で複雑なデータで成長することを見出します。
本研究では,InsTagをベースとしたデータセレクタを提案し,オープンソースのデータセットとInsTag選択データを用いたファインチューンモデルから6Kの多様な複雑なサンプルを抽出する。
その結果得られたモデルであるtaglmは、mt-benchが評価したかなり大きなsftデータに基づくオープンソースモデルよりも優れており、クエリの多様性と複雑さの重要性を反映している。
InsTagをhttps://github.com/OFA-Sys/InsTagでオープンソース化しました。
関連論文リスト
- Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - SelectLLM: Can LLMs Select Important Instructions to Annotate? [19.619273462673405]
我々はSelectLLMを紹介した。これは大規模言語モデルで未記述の命令を選択的にアノテートするためのフレームワークである。
我々の実験では、SelectLLMは命令チューニングベンチマークにおいて、他の最先端の手法と一致し、性能が良くなることを示した。
論文 参考訳(メタデータ) (2024-01-29T20:44:10Z) - A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - How Abilities in Large Language Models are Affected by Supervised
Fine-tuning Data Composition [67.02182566213268]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。