論文の概要: Clustering and Ranking: Diversity-preserved Instruction Selection
through Expert-aligned Quality Estimation
- arxiv url: http://arxiv.org/abs/2402.18191v1
- Date: Wed, 28 Feb 2024 09:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:34:04.686337
- Title: Clustering and Ranking: Diversity-preserved Instruction Selection
through Expert-aligned Quality Estimation
- Title(参考訳): クラスタリングとランキング:エキスパートアライメント品質推定による多様性保存命令選択
- Authors: Yuan Ge, Yilun Liu, Chi Hu, Weibin Meng, Shimin Tao, Xiaofeng Zhao,
Hongxia Ma, Li Zhang, Hao Yang, Tong Xiao
- Abstract要約: クラスタリングとランク付け(CaR)は、専門家による多様性に配慮した命令データ選択手法である。
実験では、AlpacaのITデータのわずか1.96%しか含まないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回った。
- 参考スコア(独自算出の注目度): 30.472982973211106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With contributions from the open-source community, a vast amount of
instruction tuning (IT) data has emerged. Given the significant resource
allocation required by training and evaluating models, it is advantageous to
have an efficient method for selecting high-quality IT data. However, existing
methods for instruction data selection have limitations such as relying on
fragile external APIs, being affected by biases in GPT models, or reducing the
diversity of the selected instruction dataset. In this paper, we propose an
industrial-friendly, expert-aligned and diversity-preserved instruction data
selection method: Clustering and Ranking (CaR). CaR consists of two steps. The
first step involves ranking instruction pairs using a scoring model that is
well aligned with expert preferences (achieving an accuracy of 84.25%). The
second step involves preserving dataset diversity through a clustering
process.In our experiment, CaR selected a subset containing only 1.96% of
Alpaca's IT data, yet the underlying AlpaCaR model trained on this subset
outperforms Alpaca by an average of 32.1% in GPT-4 evaluations. Furthermore,
our method utilizes small models (355M parameters) and requires only 11.2% of
the monetary cost compared to existing methods, making it easily deployable in
industrial scenarios.
- Abstract(参考訳): オープンソースコミュニティからのコントリビューションによって、大量の命令チューニング(it)データが登場した。
モデルのトレーニングと評価に必要な重要なリソース割り当てを考えると、高品質なITデータを選択する効率的な方法を持つことが有利である。
しかしながら、既存の命令データ選択手法には、脆弱な外部apiに依存すること、gptモデルのバイアスの影響、選択された命令データセットの多様性の低減など、制限がある。
本稿では,産業に優しく,専門家に順応し,多様性を保ったデータ選択手法であるクラスタリングとランキング(CaR)を提案する。
CaRは2つのステップからなる。
最初のステップは、専門家の好みに合致したスコア付けモデルを使って命令ペアをランク付けする(84.25%の精度を持つ)。
実験では、AlpacaのITデータのわずか1.96%しか含まれていないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回っている。
さらに,本手法は小型モデル(355Mパラメータ)を用い,既存手法に比べて11.2%のコストしか必要とせず,産業シナリオでの展開が容易である。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation [13.058299222554295]
大きな言語モデルは一般的なタスクでは優れていますが、医療のような専門分野では苦労しています。
2段階モデル中心のデータ選択フレームワークDe Difficulty Data Selection (3DS)を提案する。
実世界の医療データセットに関する我々の実験は、既存の方法よりも5.29%以上の精度で3DSの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-10-13T02:29:00Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。
3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文 参考訳(メタデータ) (2024-05-29T22:19:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - K-means Clustering Based Feature Consistency Alignment for Label-free
Model Evaluation [12.295565506212844]
本稿では,CVPR 2023における第1回DataCV Challenge of the Visual Understandingデータセットワークショップのソリューションについて述べる。
まず,K-means Clustering Based Feature Consistency Alignment (KCFCA) という手法を提案する。
第2に,分布の変化とモデル精度の関係を捉える動的回帰モデルを開発する。
第三に、外乱モデル因子を発見し、外乱モデルを排除するアルゴリズムを設計し、複数のオートエスバルモデルの強みを組み合わせる。
論文 参考訳(メタデータ) (2023-04-17T06:33:30Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。