論文の概要: Rule-based Data Selection for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04715v1
- Date: Mon, 7 Oct 2024 03:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:27:38.539249
- Title: Rule-based Data Selection for Large Language Models
- Title(参考訳): 大規模言語モデルのためのルールベースデータ選択
- Authors: Xiaomin Li, Mingye Gao, Zhiwei Zhang, Chang Yue, Hong Hu,
- Abstract要約: トレーニングデータの質は、大規模言語モデル(LLM)の性能に大きく影響する。
複数の人為的指標(ルール)に基づいてデータを評価・選択するためにLLMを用いた研究が増えている。
従来のルールベースのアプローチは、しばしば人間のベクトルに強く依存し、ルールを評価するための効果的な指標が欠如し、新しいタスクへの適応性が制限されている。
- 参考スコア(独自算出の注目度): 9.886837013587124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of training data significantly impacts the performance of large language models (LLMs). There are increasing studies using LLMs to rate and select data based on several human-crafted metrics (rules). However, these conventional rule-based approaches often depend too heavily on human heuristics, lack effective metrics for assessing rules, and exhibit limited adaptability to new tasks. In our study, we introduce an innovative rule-based framework that utilizes the orthogonality of score vectors associated with rules as a novel metric for rule evaluations. Our approach includes an automated pipeline that first uses LLMs to generate a diverse set of rules, encompassing various rating dimensions to evaluate data quality. Then it rates a batch of data based on these rules and uses the determinantal point process (DPP) from random matrix theory to select the most orthogonal score vectors, thereby identifying a set of independent rules. These rules are subsequently used to evaluate all data, selecting samples with the highest average scores for downstream tasks such as LLM training. We verify the effectiveness of our method through two experimental setups: 1) comparisons with ground truth ratings and 2) benchmarking LLMs trained with the chosen data. Our comprehensive experiments cover a range of scenarios, including general pre-training and domain-specific fine-tuning in areas such as IMDB, Medical, Math, and Code. The outcomes demonstrate that our DPP-based rule rating method consistently outperforms other approaches, including rule-free rating, uniform sampling, importance resampling, and QuRating, in terms of both rating precision and model performance.
- Abstract(参考訳): トレーニングデータの質は、大規模言語モデル(LLM)の性能に大きな影響を及ぼす。
いくつかの人為的な指標(ルール)に基づいてデータを評価・選択するためにLLMを用いた研究が増えている。
しかしながら、これらの従来のルールベースのアプローチは、しばしば人間のヒューリスティックに強く依存し、ルールを評価するための効果的な指標が欠如し、新しいタスクへの適応性が制限されている。
本研究では,ルール評価のための新しい指標として,ルールに関連付けられたスコアベクトルの直交性を利用する,革新的なルールベースフレームワークを提案する。
我々のアプローチには、まずLLMを使用してさまざまなルールを生成し、データ品質を評価するためのさまざまな評価次元を含む自動パイプラインが含まれています。
次に、これらの規則に基づいてデータのバッチを評価し、ランダム行列理論から決定点プロセス(DPP)を使用して最も直交的なスコアベクトルを選択し、それによって独立したルールの集合を識別する。
これらのルールはその後、全てのデータを評価するために使用され、LLMトレーニングのような下流タスクの平均スコアが最も高いサンプルを選択する。
提案手法の有効性を2つの実験装置で検証する。
1) 根拠的真理格付けとの比較
2) 選択したデータでトレーニングしたLSMのベンチマークを行う。
包括的実験では、IMDB、メディカル、数学、コードなど、一般的な事前トレーニングやドメイン固有の微調整など、さまざまなシナリオをカバーしています。
その結果, DPPに基づくルール評価法は, ルールフリー評価, 均一サンプリング, 重要再サンプリング, QuRatingなど, 評価精度とモデル性能の両面で, 他の手法よりも一貫して優れていた。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat [7.8905223445925055]
大規模言語モデル(LLM)に対する人間の嗜好を評価する新しい方法として、ペアワイズランキングが登場した。
LLMの前後比較におけるランキングシステムの有効性について検討する。
我々の分析は、ランキングの精度と効率に影響を与える要因について重要な洞察を見出している。
論文 参考訳(メタデータ) (2024-11-19T20:16:26Z) - Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。
本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。
我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-03T18:51:19Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。