論文の概要: RECOST: External Knowledge Guided Data-efficient Instruction Tuning
- arxiv url: http://arxiv.org/abs/2402.17355v1
- Date: Tue, 27 Feb 2024 09:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:04:55.206066
- Title: RECOST: External Knowledge Guided Data-efficient Instruction Tuning
- Title(参考訳): RECOST:外部知識ガイドによるデータ効率インストラクションチューニング
- Authors: Qi Zhang, Yiming Zhang, Haobo Wang, Junbo Zhao
- Abstract要約: 我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.985023475991625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current landscape of large language models (LLMs), the process of
instruction tuning serves as an essential step. Considering the high computing
power overhead, data-efficient instruction tuning was proposed to reduce the
training data size in this process, aiming at selecting high-quality
instructional data. Nevertheless, we argue that most current data-efficient
instruction-tuning methods are highly dependent on the quality of the original
instruction-tuning dataset. When it comes to datasets synthesized by LLMs, a
common scenario in this field, dirty samples will even be selected with a
higher probability than other samples. To address these challenges, we utilized
external knowledge (relevant examples or paragraphs) to evaluate those samples
synthesized by LLMs with an in-context-based relative predictive entropy. Based
on the new metric, we proposed a framework, dubbed as \textbf{RECOST}, which
integrates external-knowledge-base re-ranking and diversity-consistent sampling
into a single pipeline. Through extensive experiments on several synthetic
datasets (Alpaca and Alpaca-gpt4), we demonstrate the effectiveness of our
method and achieve even better results with only \textbf{1\%} of the full
dataset.
- Abstract(参考訳): 現在の大規模言語モデル(llm)の展望では、命令チューニングのプロセスが重要なステップとなっている。
高い計算能力のオーバヘッドを考慮して,高品質な指導データの選択を目的とした,このプロセスのトレーニングデータサイズを削減するために,データ効率の高い命令チューニングが提案されている。
それでも、現在のデータ効率のよい命令チューニング手法のほとんどは、元の命令チューニングデータセットの品質に大きく依存していると論じる。
この分野で一般的なシナリオであるLSMによって合成されたデータセットに関しては、汚れたサンプルは他のサンプルよりも高い確率で選択される。
これらの課題に対処するために,外部知識(関連する例や段落)を用いて,llmで合成した試料を,文脈内相対予測エントロピーを用いて評価した。
新しい指標に基づいて,外部知識ベースの再評価と多様性に一貫性のあるサンプリングをひとつのパイプラインに統合するフレームワークを,‘textbf{RECOST}’として提案した。
いくつかの合成データセット(AlpacaとAlpaca-gpt4)の広範な実験を通じて、本手法の有効性を実証し、全データセットのtextbf{1\%}でさらに優れた結果を得る。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Exploring Learning Complexity for Downstream Data Pruning [9.526877053855998]
本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE [0.0]
我々は,潜在空間の幾何構造に基づく2つの非アンフリープリオリ依存生成手順を考案する。
後者の手法は、サンプルサイズの小さな設定でデータ拡張を行うために使用され、様々な標準および実生活データセットで検証される。
論文 参考訳(メタデータ) (2021-03-25T11:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。