Fugu-MT 論文翻訳(概要): #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models

論文の概要: #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models

arxiv url: http://arxiv.org/abs/2308.07074v2
Date: Tue, 15 Aug 2023 07:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 15:41:06.756883
Title: #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models
Title（参考訳）: #InsTag:大規模言語モデルの教師付き微調整解析のためのインストラクションタグ
Authors: Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou, Jingren Zhou
Abstract要約: 本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けする,オープンセットのきめ細かいタグタグであるInsTagを提案する。我々は、人気のあるオープンソースSFTデータセットを分析し、モデル能力がより多種多様な複雑なデータで成長することを発見した。結果として得られたモデルであるTagLMは、MT-Benchによって評価されたかなり大きなSFTデータに基づいて、オープンソースモデルより優れている。
参考スコア（独自算出の注目度）: 83.80695137230134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation language models obtain the instruction-following ability through supervised fine-tuning (SFT). Diversity and complexity are considered critical factors of a successful SFT dataset, while their definitions remain obscure and lack quantitative analyses. In this work, we propose InsTag, an open-set fine-grained tagger, to tag samples within SFT datasets based on semantics and intentions and define instruction diversity and complexity regarding tags. We obtain 6.6K tags to describe comprehensive user queries. Then we analyze popular open-sourced SFT datasets and find that the model ability grows with more diverse and complex data. Based on this observation, we propose a data selector based on InsTag to select 6K diverse and complex samples from open-source datasets and fine-tune models on InsTag-selected data. The resulting models, TagLM, outperform open-source models based on considerably larger SFT data evaluated by MT-Bench, echoing the importance of query diversity and complexity. We open-source InsTag in https://github.com/OFA-Sys/InsTag.
Abstract（参考訳）: 基礎言語モデルは教師付き微調整(sft)により命令追従能力を得る。多様性と複雑性は、SFTデータセットの成功の重要な要因と考えられているが、その定義はあいまいであり、定量分析が欠如している。本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けし,タグに関する命令の多様性と複雑性を定義するための,オープンセットのきめ細かいタグであるInsTagを提案する。包括的ユーザクエリを記述するための6.6Kタグを取得する。そして、人気のあるオープンソースsftデータセットを分析し、モデル能力がより多様で複雑なデータで成長することを見出します。本研究では,InsTagをベースとしたデータセレクタを提案し,オープンソースのデータセットとInsTag選択データを用いたファインチューンモデルから6Kの多様な複雑なサンプルを抽出する。その結果得られたモデルであるtaglmは、mt-benchが評価したかなり大きなsftデータに基づくオープンソースモデルよりも優れており、クエリの多様性と複雑さの重要性を反映している。 InsTagをhttps://github.com/OFA-Sys/InsTagでオープンソース化しました。

関連論文リスト

TACOS: Open Tagging and Comparative Scoring for Instruction Fine-Tuning Data Selection [9.020110377060153]
We present TACOS, a innovative method that integrates Open Tagging and Comparison Scoring for IFT data selection。データの多様性を捉えるために、LLMを活用して、オープンドメインタグを人間のクエリに割り当てる。本稿では,クラスタ内のサンプルの相対的品質評価を可能にする比較評価手法を提案する。
論文参考訳（メタデータ） (2025-07-04T15:46:07Z)
Diversity-oriented Data Augmentation with Large Language Models [9.548912625579947]
我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文参考訳（メタデータ） (2025-02-17T11:00:40Z)
Boosting LLM via Learning from Data Iteratively and Selectively [23.30222913893128]
複雑さと多様性を同時に測定する。 IterITは、トップランクのサンプルの複雑性スコアを反復的に更新することで、両方の世界の強みを統合する。
論文参考訳（メタデータ） (2024-12-23T08:01:24Z)
Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-06T12:54:27Z)
Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文参考訳（メタデータ） (2024-10-01T00:37:16Z)
Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets [38.867815476721894]
ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデルパフォーマンスが制限されている。多言語IFTデータセットを作成する従来の方法は、言語的ニュアンスを捕捉し、迅速な(指示)多様性を確保するのに苦労している。本稿では,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
論文参考訳（メタデータ） (2024-07-01T23:47:09Z)
Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity [0.0]
AugConは、さまざまなレベルの粒度のコンテキスト駆動SFTデータを、多様性、品質、忠実度で自動生成することができる。コントラスト学習を通じてスコアラーをトレーニングし、CSTと協調してクエリのランク付けと洗練を行う。その結果、AugConがいくつかの最先端手法に対して高多様性、品質、忠実度SFTデータを生成する際の大きな利点を浮き彫りにした。
論文参考訳（メタデータ） (2024-05-26T14:14:18Z)
Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文参考訳（メタデータ） (2024-04-22T17:15:32Z)
A General Model for Aggregating Annotations Across Simple, Complex, and Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文参考訳（メタデータ） (2023-12-20T21:28:35Z)
How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文参考訳（メタデータ） (2023-10-09T07:56:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。