Fugu-MT 論文翻訳(概要): Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation

論文の概要: Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation

arxiv url: http://arxiv.org/abs/2402.18191v1
Date: Wed, 28 Feb 2024 09:27:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 15:34:04.686337
Title: Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation
Title（参考訳）: クラスタリングとランキング:エキスパートアライメント品質推定による多様性保存命令選択
Authors: Yuan Ge, Yilun Liu, Chi Hu, Weibin Meng, Shimin Tao, Xiaofeng Zhao, Hongxia Ma, Li Zhang, Hao Yang, Tong Xiao
Abstract要約: クラスタリングとランク付け(CaR)は、専門家による多様性に配慮した命令データ選択手法である。実験では、AlpacaのITデータのわずか1.96%しか含まないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回った。
参考スコア（独自算出の注目度）: 30.472982973211106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With contributions from the open-source community, a vast amount of instruction tuning (IT) data has emerged. Given the significant resource allocation required by training and evaluating models, it is advantageous to have an efficient method for selecting high-quality IT data. However, existing methods for instruction data selection have limitations such as relying on fragile external APIs, being affected by biases in GPT models, or reducing the diversity of the selected instruction dataset. In this paper, we propose an industrial-friendly, expert-aligned and diversity-preserved instruction data selection method: Clustering and Ranking (CaR). CaR consists of two steps. The first step involves ranking instruction pairs using a scoring model that is well aligned with expert preferences (achieving an accuracy of 84.25%). The second step involves preserving dataset diversity through a clustering process.In our experiment, CaR selected a subset containing only 1.96% of Alpaca's IT data, yet the underlying AlpaCaR model trained on this subset outperforms Alpaca by an average of 32.1% in GPT-4 evaluations. Furthermore, our method utilizes small models (355M parameters) and requires only 11.2% of the monetary cost compared to existing methods, making it easily deployable in industrial scenarios.
Abstract（参考訳）: オープンソースコミュニティからのコントリビューションによって、大量の命令チューニング(it)データが登場した。モデルのトレーニングと評価に必要な重要なリソース割り当てを考えると、高品質なITデータを選択する効率的な方法を持つことが有利である。しかしながら、既存の命令データ選択手法には、脆弱な外部apiに依存すること、gptモデルのバイアスの影響、選択された命令データセットの多様性の低減など、制限がある。本稿では,産業に優しく,専門家に順応し,多様性を保ったデータ選択手法であるクラスタリングとランキング(CaR)を提案する。 CaRは2つのステップからなる。最初のステップは、専門家の好みに合致したスコア付けモデルを使って命令ペアをランク付けする(84.25%の精度を持つ)。実験では、AlpacaのITデータのわずか1.96%しか含まれていないサブセットを選択したが、このサブセットでトレーニングされたAlpaCaRモデルは、GPT-4評価において平均32.1%Alpacaを上回っている。さらに,本手法は小型モデル(355Mパラメータ)を用い,既存手法に比べて11.2%のコストしか必要とせず,産業シナリオでの展開が容易である。

関連論文リスト

T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning [5.963754140027611]
Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT)は、新しいデータ選択フレームワークである。我々は、キュレートされたデータセットでチューニングされたモデルが、大規模データセット全体においてトレーニングされたモデルよりも優れていることを実証した。
論文参考訳（メタデータ） (2025-06-02T04:59:17Z)
Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models [11.698978613605561]
手動のイシュー分類は面倒でスケーラビリティに欠けています。伝統的に、問題分類には機械学習技術が用いられてきた。大規模言語モデル(LLM)は、ソフトウェア工学の課題に対処するための強力なツールとして登場した。
論文参考訳（メタデータ） (2025-05-30T18:02:55Z)
RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文参考訳（メタデータ） (2025-05-08T15:17:37Z)
Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。 DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文参考訳（メタデータ） (2025-04-29T11:13:18Z)
Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
我々はPRRCを提案し、プロフェッショナル主義、可読性、推論、クリーンラインにまたがるデータ品質を評価する。学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、100Bトークンでトレーニングされた3.3Bモデルにおいて、ダウンストリームタスクのパフォーマンスを3.23倍改善することを示した。
論文参考訳（メタデータ） (2025-04-19T06:12:33Z)
Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder [45.64824340565906]
本稿では,データ多様性対策の課題に取り組むために,スパースオートエンコーダ(SAE)を提案する。我々は、選択したデータに基づいてトレーニングされたモデルが、モデル能力の点で他の手法より優れていることを実験的に証明した。より広いコミュニティで使用するために、トレーニングされたSAEをリリースします。
論文参考訳（メタデータ） (2025-02-19T19:12:34Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation [13.058299222554295]
大きな言語モデルは一般的なタスクでは優れていますが、医療のような専門分野では苦労しています。 2段階モデル中心のデータ選択フレームワークDe Difficulty Data Selection (3DS)を提案する。実世界の医療データセットに関する我々の実験は、既存の方法よりも5.29%以上の精度で3DSの方が優れていることを示した。
論文参考訳（メタデータ） (2024-10-13T02:29:00Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか? 提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文参考訳（メタデータ） (2024-09-17T17:25:31Z)
CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning [19.100022935748225]
データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。 3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
論文参考訳（メタデータ） (2024-05-29T22:19:57Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
K-means Clustering Based Feature Consistency Alignment for Label-free Model Evaluation [12.295565506212844]
本稿では,CVPR 2023における第1回DataCV Challenge of the Visual Understandingデータセットワークショップのソリューションについて述べる。まず,K-means Clustering Based Feature Consistency Alignment (KCFCA) という手法を提案する。第2に,分布の変化とモデル精度の関係を捉える動的回帰モデルを開発する。第三に、外乱モデル因子を発見し、外乱モデルを排除するアルゴリズムを設計し、複数のオートエスバルモデルの強みを組み合わせる。
論文参考訳（メタデータ） (2023-04-17T06:33:30Z)
Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文参考訳（メタデータ） (2021-11-17T12:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。