論文の概要: #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of
Large Language Models
- arxiv url: http://arxiv.org/abs/2308.07074v2
- Date: Tue, 15 Aug 2023 07:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:41:06.756883
- Title: #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of
Large Language Models
- Title(参考訳): #InsTag:大規模言語モデルの教師付き微調整解析のためのインストラクションタグ
- Authors: Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi
Tan, Chang Zhou, Jingren Zhou
- Abstract要約: 本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けする,オープンセットのきめ細かいタグタグであるInsTagを提案する。
我々は、人気のあるオープンソースSFTデータセットを分析し、モデル能力がより多種多様な複雑なデータで成長することを発見した。
結果として得られたモデルであるTagLMは、MT-Benchによって評価されたかなり大きなSFTデータに基づいて、オープンソースモデルより優れている。
- 参考スコア(独自算出の注目度): 83.80695137230134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation language models obtain the instruction-following ability through
supervised fine-tuning (SFT). Diversity and complexity are considered critical
factors of a successful SFT dataset, while their definitions remain obscure and
lack quantitative analyses. In this work, we propose InsTag, an open-set
fine-grained tagger, to tag samples within SFT datasets based on semantics and
intentions and define instruction diversity and complexity regarding tags. We
obtain 6.6K tags to describe comprehensive user queries. Then we analyze
popular open-sourced SFT datasets and find that the model ability grows with
more diverse and complex data. Based on this observation, we propose a data
selector based on InsTag to select 6K diverse and complex samples from
open-source datasets and fine-tune models on InsTag-selected data. The
resulting models, TagLM, outperform open-source models based on considerably
larger SFT data evaluated by MT-Bench, echoing the importance of query
diversity and complexity. We open-source InsTag in
https://github.com/OFA-Sys/InsTag.
- Abstract(参考訳): 基礎言語モデルは教師付き微調整(sft)により命令追従能力を得る。
多様性と複雑性は、SFTデータセットの成功の重要な要因と考えられているが、その定義はあいまいであり、定量分析が欠如している。
本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けし,タグに関する命令の多様性と複雑性を定義するための,オープンセットのきめ細かいタグであるInsTagを提案する。
包括的ユーザクエリを記述するための6.6Kタグを取得する。
そして、人気のあるオープンソースsftデータセットを分析し、モデル能力がより多様で複雑なデータで成長することを見出します。
本研究では,InsTagをベースとしたデータセレクタを提案し,オープンソースのデータセットとInsTag選択データを用いたファインチューンモデルから6Kの多様な複雑なサンプルを抽出する。
その結果得られたモデルであるtaglmは、mt-benchが評価したかなり大きなsftデータに基づくオープンソースモデルよりも優れており、クエリの多様性と複雑さの重要性を反映している。
InsTagをhttps://github.com/OFA-Sys/InsTagでオープンソース化しました。
関連論文リスト
- Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。
我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。
解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-06T12:54:27Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文 参考訳(メタデータ) (2024-10-01T00:37:16Z) - Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets [38.867815476721894]
ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデルパフォーマンスが制限されている。
多言語IFTデータセットを作成する従来の方法は、言語的ニュアンスを捕捉し、迅速な(指示)多様性を確保するのに苦労している。
本稿では,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T23:47:09Z) - Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity [0.0]
AugConは、さまざまなレベルの粒度のコンテキスト駆動SFTデータを、多様性、品質、忠実度で自動生成することができる。
コントラスト学習を通じてスコアラーをトレーニングし、CSTと協調してクエリのランク付けと洗練を行う。
その結果、AugConがいくつかの最先端手法に対して高多様性、品質、忠実度SFTデータを生成する際の大きな利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-26T14:14:18Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。