論文の概要: D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning
- arxiv url: http://arxiv.org/abs/2503.11441v1
- Date: Fri, 14 Mar 2025 14:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:22.398839
- Title: D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning
- Title(参考訳): D3: LLMインストラクションチューニングのための多様性,難易度,および依存性を考慮したデータ選択
- Authors: Jia Zhang, Chen-Xi Zhang, Yao Liu, Yi-Xuan Jin, Xiao-Wen Yang, Bo Zheng, Yi Liu, Lan-Zhe Guo,
- Abstract要約: 小型で高品質なデータセットは、命令追従機能を備えた大きな言語モデルを提供することができる。
スコアリングと選択の2つの重要なステップからなるD3法を提案する。
3つのデータセットの実験では、競争力のある、あるいは優れた命令追従能力を持つLLMを実現する上で、D3の有効性が示されている。
- 参考スコア(独自算出の注目度): 29.019199700339083
- License:
- Abstract: Recent advancements in instruction tuning for large language models (LLMs) suggest that a small, high-quality dataset can significantly equip LLMs with instruction-following capabilities, outperforming large datasets often burdened by quality and redundancy issues. However, the challenge lies in automatically identifying valuable subsets from large datasets to boost both the effectiveness and efficiency of instruction tuning. In this paper, we first establish data selection criteria based on three distinct aspects of data value: diversity, difficulty, and dependability, and then propose the D3 method comprising two key steps of scoring and selection. Specifically, in the scoring step, we define the diversity function to measure sample distinctiveness and introduce the uncertainty-based prediction difficulty to evaluate sample difficulty by mitigating the interference of context-oriented generation diversity. Additionally, we integrate an external LLM for dependability assessment. In the selection step, we formulate the D3 weighted coreset objective, which jointly optimizes three aspects of data value to solve for the most valuable subset. The two steps of D3 can iterate multiple rounds, incorporating feedback to refine the selection focus adaptively. Experiments on three datasets demonstrate the effectiveness of D3 in endowing LLMs with competitive or even superior instruction-following capabilities using less than 10% of the entire dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)の命令チューニングの最近の進歩は、小型で高品質なデータセットが命令追従能力を持つLLMを著しく向上させることができることを示唆している。
しかし、この課題は、命令チューニングの有効性と効率を高めるために、大きなデータセットから価値のあるサブセットを自動的に識別することにある。
本稿では、まず、多様性、難易度、信頼性の3つの異なる側面に基づいてデータ選択基準を設定し、次に、2つの重要なスコア付けと選択のステップからなるD3法を提案する。
具体的には、評価段階において、サンプルの特異性を測定するための多様性関数を定義し、不確実性に基づく予測困難を導入し、コンテキスト指向の世代多様性の干渉を軽減することでサンプルの難しさを評価する。
さらに,信頼性評価のための外部LLMを統合する。
選択ステップでは、D3重み付けされたコアセットの目的を定式化し、データ値の3つの側面を最適化して、最も価値のあるサブセットを解く。
D3の2つのステップは複数のラウンドを繰り返すことができ、フィードバックを取り入れて選択の焦点を適応的に洗練する。
3つのデータセットの実験では、データセット全体の10%未満を使用して、競争力のある、あるいは優れた命令フォロー機能を備えたLLMを実現する上で、D3の有効性が示されている。
関連論文リスト
- TSceneJAL: Joint Active Learning of Traffic Scenes for 3D Object Detection [26.059907173437114]
TSceneJALフレームワークはラベル付きデータとラベルなしデータの両方から、バランスのとれた、多様性のある、複雑なトラフィックシーンを効率的にサンプリングすることができる。
提案手法は,3次元オブジェクト検出タスクにおける既存の最先端手法よりも12%向上した。
論文 参考訳(メタデータ) (2024-12-25T11:07:04Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation [13.058299222554295]
大きな言語モデルは一般的なタスクでは優れていますが、医療のような専門分野では苦労しています。
2段階モデル中心のデータ選択フレームワークDe Difficulty Data Selection (3DS)を提案する。
実世界の医療データセットに関する我々の実験は、既存の方法よりも5.29%以上の精度で3DSの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-10-13T02:29:00Z) - Improving Data Efficiency via Curating LLM-Driven Rating Systems [30.233724785974143]
データ選択のための多変量対応スコアキュレーション手法DS2を紹介する。
スコア遷移行列を通じてエラーパターンを体系的にモデル化することにより、DS2はLSMベースのスコアを補正し、選択したデータサンプルの多様性を促進する。
このアプローチは、キュレートされたサブセット(元のデータセットのわずか3.3%)が、さまざまなマシンアライメントベンチマークで、フルスケールデータセット(300kサンプル)より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T10:07:55Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。