論文の概要: Target-Aware Language Modeling via Granular Data Sampling
- arxiv url: http://arxiv.org/abs/2409.14705v1
- Date: Mon, 23 Sep 2024 04:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:23:54.420861
- Title: Target-Aware Language Modeling via Granular Data Sampling
- Title(参考訳): グラニュラーデータサンプリングによるターゲット認識言語モデリング
- Authors: Ernie Chang, Pin-Jie Lin, Yang Li, Changsheng Zhao, Daeil Kim, Rastislav Rabatin, Zechun Liu, Yangyang Shi, Vikas Chandra,
- Abstract要約: 言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
- 参考スコア(独自算出の注目度): 25.957424920194914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model pretraining generally targets a broad range of use cases and incorporates data from diverse sources. However, there are instances where we desire a model that excels in specific areas without markedly compromising performance in other areas. A cost-effective and straightforward approach is sampling with low-dimensional data features, which allows to select large-scale pretraining data for domain-specific use cases. In this work, we revisit importance sampling with n-gram features consisting of multi-granular tokens, which strikes a good balance between sentence compression and representation capabilities. We observed the sampled data to have a high correlation with the target downstream task performance while preserving its effectiveness on other tasks. This leads to the proposed data sampling paradigm where language models can be pretrained more efficiently on selected documents. On eight benchmarks we demonstrate with $\sim$1% of the data, pretrained models perform on par with the full RefinedWeb data and outperform randomly selected samples for model sizes ranging from 125M to 1.5B.
- Abstract(参考訳): 言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
しかし、他の領域のパフォーマンスを著しく損なうことなく、特定の領域で優れたモデルを欲しがる例もある。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることで、ドメイン固有のユースケースに対して大規模な事前トレーニングデータを選択することができる。
本研究では,複数粒状トークンからなるn-gram特徴量を用いた重要度サンプリングを行い,文圧縮と表現能力のバランスを良くする。
我々は,サンプルデータから,他のタスクの有効性を保ちながら,目標下流タスク性能と高い相関性を有することを示した。
これにより、選択した文書上で言語モデルをより効率的に事前訓練できるデータサンプリングパラダイムが提案される。
8つのベンチマークでは、データの$\sim$1%で、事前訓練されたモデルは、完全なRefinedWebデータと同等のパフォーマンスを示し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れています。
関連論文リスト
- What Should Baby Models Read? Exploring Sample-Efficient Data Composition on Model Performance [0.0]
我々は、子指向音声(CHILDES)、古典書(Gutenberg)、合成データ(TinyStories)、様々なモデルサイズにまたがる混合データなど、いくつかのデータセットソースを評価した。
GPT2-97M, GPT2-705M, Llama-360Mなどの小さなモデルでは, Gutenbergのようなより複雑でリッチなデータセットでトレーニングすると, より優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-11T02:37:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Data-driven Model Generalizability in Crosslinguistic Low-resource
Morphological Segmentation [4.339613097080119]
低リソースのシナリオでは、データコレクションのアーティファクトは、外れ値のデータセットを生成できるため、モデルパフォーマンスに関する結論が一致している可能性がある。
パラメータ化の異なるモデルの3つのクラスを比較し、11の言語から6つの言語ファミリーのデータを抽出する。
その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。
論文 参考訳(メタデータ) (2022-01-05T22:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。