論文の概要: Rethinking the Instruction Quality: LIFT is What You Need
- arxiv url: http://arxiv.org/abs/2312.11508v2
- Date: Wed, 27 Dec 2023 08:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:10:54.876801
- Title: Rethinking the Instruction Quality: LIFT is What You Need
- Title(参考訳): インストラクションの品質を再考する: リフトはあなたが必要とするもの
- Authors: Yang Xu, Yongqiang Yao, Yufan Huang, Mengnan Qi, Maoquan Wang, Bin Gu,
Neel Sundaresan
- Abstract要約: 既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
- 参考スコア(独自算出の注目度): 20.829372251475476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning, a specialized technique to enhance large language model
(LLM) performance via instruction datasets, relies heavily on the quality of
employed data. Existing quality improvement methods alter instruction data
through dataset expansion or curation. However, the expansion method risks data
redundancy, potentially compromising LLM performance, while the curation
approach confines the LLM's potential to the original dataset. Our aim is to
surpass the original data quality without encountering these shortcomings. To
achieve this, we propose LIFT (LLM Instruction Fusion Transfer), a novel and
versatile paradigm designed to elevate the instruction quality to new heights.
LIFT strategically broadens data distribution to encompass more high-quality
subspaces and eliminates redundancy, concentrating on high-quality segments
across overall data subspaces. Experimental results demonstrate that, even with
a limited quantity of high-quality instruction data selected by our paradigm,
LLMs not only consistently uphold robust performance across various tasks but
also surpass some state-of-the-art results, highlighting the significant
improvement in instruction quality achieved by our paradigm.
- Abstract(参考訳): 命令データセットによる大規模言語モデル(LLM)の性能向上のための特殊手法であるインストラクションチューニングは、採用データの品質に大きく依存する。
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
しかし、拡張方法はデータの冗長性、潜在的にllmのパフォーマンスを損なうリスクを負い、キュレーションアプローチはllmのポテンシャルを元のデータセットに限定する。
私たちの目標は、これらの欠点に遭遇することなく、元のデータ品質を上回ることです。
そこで本研究では,命令品質を新たな高さに高めるために,新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
LIFTは、データ分散を戦略的に拡張し、より高品質なサブスペースを包含し、冗長性を排除する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を常に維持するだけでなく, 最先端の成果を超越して, パラダイムによって達成される命令品質の大幅な向上が示されている。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
データ品質制御(FedDQC)を備えた大規模言語モデル(LLM)のフェデレーション・インストラクション・チューニングの新しいフレームワークを提案する。
提案手法では,各クライアントの命令応答アライメント(IRA)を評価するための効率的なメトリクスを導入し,単一ショット推論によるノイズの多いデータを同定する。
我々は4つの合成データセットと実世界のデータセットについて広範な実験を行い、この手法を集中的な設定から適応したベースラインと比較した。
論文 参考訳(メタデータ) (2024-10-15T12:14:57Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Empowering Large Language Models for Textual Data Augmentation [23.483960932358396]
大きな言語モデル(LLM)は、テキストデータ拡張のための強力なツールとして機能する可能性がある。
本研究は,大規模拡張命令を自動生成し,最適なタスクインフォームド命令を選択する,新たなソリューションを提案する。
実験的に提案手法は,LLM や LLM をベースとしたデータ拡張手法と比較して,品質が向上した拡張データを一貫して生成する。
論文 参考訳(メタデータ) (2024-04-26T18:04:25Z) - SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning [16.307467144690683]
大規模な言語モデルは、少量の高品質なデータだけで望ましいパフォーマンスを達成することができる。
大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。
本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。
論文 参考訳(メタデータ) (2024-04-23T04:56:48Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。