Fugu-MT 論文翻訳(概要): SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning

論文の概要: SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning

arxiv url: http://arxiv.org/abs/2405.00705v1
Date: Tue, 23 Apr 2024 04:56:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-05 17:54:32.161400
Title: SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning
Title（参考訳）: SHED:インストラクションファインチューニングのためのシェープベース自動データセットリファインメント
Authors: Yexiao He, Ziyao Wang, Zheyu Shen, Guoheng Sun, Yucong Dai, Yongkai Wu, Hongyi Wang, Ang Li,
Abstract要約: 大規模な言語モデルは、少量の高品質なデータだけで望ましいパフォーマンスを達成することができる。大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。
参考スコア（独自算出の注目度）: 16.307467144690683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pre-trained Large Language Models (LLMs) can be adapted for many downstream tasks and tailored to align with human preferences through fine-tuning. Recent studies have discovered that LLMs can achieve desirable performance with only a small amount of high-quality data, suggesting that a large amount of the data in these extensive datasets is redundant or even harmful. Identifying high-quality data from vast datasets to curate small yet effective datasets has emerged as a critical challenge. In this paper, we introduce SHED, an automated dataset refinement framework based on Shapley value for instruction fine-tuning. SHED eliminates the need for human intervention or the use of commercial LLMs. Moreover, the datasets curated through SHED exhibit transferability, indicating they can be reused across different LLMs with consistently high performance. We conduct extensive experiments to evaluate the datasets curated by SHED. The results demonstrate SHED's superiority over state-of-the-art methods across various tasks and LLMs; notably, datasets comprising only 10% of the original data selected by SHED achieve performance comparable to or surpassing that of the full datasets.
Abstract（参考訳）: 事前訓練されたLarge Language Models (LLM) は多くの下流タスクに適応でき、微調整によって人間の好みに合わせて調整できる。近年の研究では、LLMは少量の高品質なデータだけで望ましい性能を達成できることが発見されており、これらの膨大なデータセットにある大量のデータが冗長であるか、有害であるかが示唆されている。大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。 SHEDは人間の介入や商業LLMの使用の必要性を排除している。さらに、SHEDによってキュレートされたデータセットは転送可能性を示し、一貫して高いパフォーマンスで異なるLLM間で再利用可能であることを示す。 SHEDによって計算されたデータセットを評価するために、広範な実験を行う。その結果、SHEDは様々なタスクやLLMにわたる最先端のメソッドよりも優れており、特にSHEDが選択した元のデータのうち10%しか含まれていないデータセットは、完全なデータセットと同等かそれ以上のパフォーマンスを達成した。

関連論文リスト

Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。 GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文参考訳（メタデータ） (2025-11-07T08:34:50Z)
A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.897899343082806]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文参考訳（メタデータ） (2025-10-29T17:01:55Z)
Data Efficacy for Language Model Training [29.901090317084005]
データは言語モデル(LM)の訓練の基礎となる。近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
論文参考訳（メタデータ） (2025-06-26T17:59:07Z)
Augmented Relevance Datasets with Fine-Tuned Small LLMs [0.7022492404644501]
本稿では,小型かつ微調整された大規模言語モデル (LLM) を用いた妥当性評価の自動化について検討する。そこで我々は,小規模LLMを微調整し,関連性評価を強化し,下流ランキングモデルトレーニングのためのデータセット作成品質を向上させる。
論文参考訳（メタデータ） (2025-04-14T02:35:00Z)
Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。 BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文参考訳（メタデータ） (2025-02-24T02:57:21Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文参考訳（メタデータ） (2024-10-28T20:53:49Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文参考訳（メタデータ） (2023-12-12T03:30:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。