論文の概要: Clustering and Ranking: Diversity-preserved Instruction Selection
through Expert-aligned Quality Estimation
- arxiv url: http://arxiv.org/abs/2402.18191v1
- Date: Wed, 28 Feb 2024 09:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:34:04.686337
- Title: Clustering and Ranking: Diversity-preserved Instruction Selection
through Expert-aligned Quality Estimation
- Title(参考訳): クラスタリングとランキング:エキスパートアライメント品質推定による多様性保存命令選択
- Authors: Yuan Ge, Yilun Liu, Chi Hu, Weibin Meng, Shimin Tao, Xiaofeng Zhao,
Hongxia Ma, Li Zhang, Hao Yang, Tong Xiao
- Abstract要約: クラスタリングとランク付け(CaR)は、専門家による多様性に配慮した命令データ選択手法である。
実験では、AlpacaのITデータのわずか1.96%しか含まないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回った。
- 参考スコア(独自算出の注目度): 30.472982973211106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With contributions from the open-source community, a vast amount of
instruction tuning (IT) data has emerged. Given the significant resource
allocation required by training and evaluating models, it is advantageous to
have an efficient method for selecting high-quality IT data. However, existing
methods for instruction data selection have limitations such as relying on
fragile external APIs, being affected by biases in GPT models, or reducing the
diversity of the selected instruction dataset. In this paper, we propose an
industrial-friendly, expert-aligned and diversity-preserved instruction data
selection method: Clustering and Ranking (CaR). CaR consists of two steps. The
first step involves ranking instruction pairs using a scoring model that is
well aligned with expert preferences (achieving an accuracy of 84.25%). The
second step involves preserving dataset diversity through a clustering
process.In our experiment, CaR selected a subset containing only 1.96% of
Alpaca's IT data, yet the underlying AlpaCaR model trained on this subset
outperforms Alpaca by an average of 32.1% in GPT-4 evaluations. Furthermore,
our method utilizes small models (355M parameters) and requires only 11.2% of
the monetary cost compared to existing methods, making it easily deployable in
industrial scenarios.
- Abstract(参考訳): オープンソースコミュニティからのコントリビューションによって、大量の命令チューニング(it)データが登場した。
モデルのトレーニングと評価に必要な重要なリソース割り当てを考えると、高品質なITデータを選択する効率的な方法を持つことが有利である。
しかしながら、既存の命令データ選択手法には、脆弱な外部apiに依存すること、gptモデルのバイアスの影響、選択された命令データセットの多様性の低減など、制限がある。
本稿では,産業に優しく,専門家に順応し,多様性を保ったデータ選択手法であるクラスタリングとランキング(CaR)を提案する。
CaRは2つのステップからなる。
最初のステップは、専門家の好みに合致したスコア付けモデルを使って命令ペアをランク付けする(84.25%の精度を持つ)。
実験では、AlpacaのITデータのわずか1.96%しか含まれていないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回っている。
さらに,本手法は小型モデル(355Mパラメータ)を用い,既存手法に比べて11.2%のコストしか必要とせず,産業シナリオでの展開が容易である。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Crowd-Certain: Label Aggregation in Crowdsourced and Ensemble Learning
Classification [0.0]
クラウドソースおよびアンサンブル学習分類タスクにおけるラベルアグリゲーションのための新しいアプローチであるCrowd-Certainを紹介する。
提案手法は,アノテータと訓練された分類器の整合性を利用して,各アノテータの信頼性スコアを決定する。
我々は10の異なるデータセットにまたがる10の既存手法に対するアプローチを広範囲に評価し、それぞれに異なる数のアノテータをラベル付けした。
論文 参考訳(メタデータ) (2023-10-25T01:58:37Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Multiple-criteria Based Active Learning with Fixed-size Determinantal
Point Processes [43.71112693633952]
本稿では,情報性,代表性,多様性の3つの相補的基準を取り入れた,複数基準に基づく能動学習アルゴリズムを提案する。
提案手法は,他の複数基準のALアルゴリズムよりも性能が優れ,安定であることを示す。
論文 参考訳(メタデータ) (2021-07-04T13:22:54Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。