Fugu-MT 論文翻訳(概要): Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

論文の概要: Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

arxiv url: http://arxiv.org/abs/2402.11537v2
Date: Tue, 26 Mar 2024 10:45:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 21:53:51.136606
Title: Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning
Title（参考訳）: 機械学習による大規模言語モデルに対する事前学習の影響の解明
Authors: Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Zhouhao Sun, Jun Shi, Ting Liu, Bing Qin,
Abstract要約: 大規模言語モデルの事前学習データの5つの主要なカテゴリから,48のデータセットが与える影響を系統的に分析した。本研究は,LLMの性能に対する複数コーパスの寄与に関する実証的な結果を提供する。
参考スコア（独自算出の注目度）: 45.96954837114004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Through pretraining on a corpus with various sources, Large Language Models (LLMs) have gained impressive performance. However, the impact of each component of the pretraining corpus remains opaque. As a result, the organization of the pretraining corpus is still empirical and may deviate from the optimal. To address this issue, we systematically analyze the impact of 48 datasets from 5 major categories of pretraining data of LLMs and measure their impacts on LLMs using benchmarks about nine major categories of model capabilities. Our analyses provide empirical results about the contribution of multiple corpora on the performances of LLMs, along with their joint impact patterns, including complementary, orthogonal, and correlational relationships. We also identify a set of ``high-impact data'' such as Books that is significantly related to a set of model capabilities. These findings provide insights into the organization of data to support more efficient pretraining of LLMs.
Abstract（参考訳）: 様々なソースを持つコーパスでの事前トレーニングを通じて、Large Language Models (LLMs) は印象的なパフォーマンスを得た。しかし,プレトレーニングコーパスの各成分の影響はいまだに不透明である。結果として、プレトレーニングコーパスの組織は、まだ経験的であり、最適から逸脱する可能性がある。この問題に対処するために, LLMの事前学習データ5つの主要なカテゴリから48のデータセットが与える影響を系統的に分析し, モデル能力の9つの主要なカテゴリに関するベンチマークを用いてLLMへの影響を測定する。本研究は, 複数コーパスがLLMの性能に与える影響と, 相補関係, 直交関係, 相関関係など, 共同的な影響パターンについて実験的に検討した。また、モデル機能のセットに大きく関連しているBooksのような‘high-impact data’のセットも特定します。これらの知見は、LLMのより効率的な事前トレーニングを支援するために、データの組織化に関する洞察を提供する。

関連論文リスト

Register Always Matters: Analysis of LLM Pretraining Data Through the Lens of Language Variation [4.008456970593357]
事前学習データの登録がモデルの性能に大きく影響を与えることを示す。事前学習材料と結果モデルとの驚くべき関係を明らかにする。我々は、レジスタがモデル変動の重要な説明者であり、より意図的な将来のデータ選択の実践を促進することができると結論付けている。
論文参考訳（メタデータ） (2025-04-02T09:30:24Z)
Data-Efficient Pretraining with Group-Level Data Influence Modeling [49.18903821780051]
グループレベルデータ影響モデリング(Group-MATES)は、新しいデータ効率事前学習手法である。 Group-MATESは、事前学習モデルをデータセットで局所的に探索することで、オラクルグループレベルの影響を収集する。その後、関係データの影響モデルを微調整し、個々の影響の相関重み付けとしてオラクルを近似する。
論文参考訳（メタデータ） (2025-02-20T16:34:46Z)
Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文参考訳（メタデータ） (2025-01-24T18:50:26Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文参考訳（メタデータ） (2024-09-12T16:20:57Z)
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文参考訳（メタデータ） (2024-07-17T11:26:47Z)
Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文参考訳（メタデータ） (2024-06-17T07:25:09Z)
Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
Instruction Fine-Tuning (IFT) は事前訓練されたLarge Language Models (LLM) のゼロショット能力を著しく向上させる IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文参考訳（メタデータ） (2024-05-30T23:20:25Z)
Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文参考訳（メタデータ） (2023-10-12T22:44:19Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Measuring Causal Effects of Data Statistics on Language Model's `Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文参考訳（メタデータ） (2022-07-28T17:36:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。