Fugu-MT 論文翻訳(概要): Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

論文の概要: Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

arxiv url: http://arxiv.org/abs/2306.13840v2
Date: Tue, 26 Sep 2023 23:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 19:09:10.001445
Title: Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data
Title（参考訳）: スケールを超えて:データ品質指標としての多様性係数 LLM は形式的に異なるデータに基づいて事前訓練される
Authors: Alycia Lee, Brando Miranda, Sudharsan Sundar, Sanmi Koyejo
Abstract要約: 我々は最近提案されたTask2Vecの多様性係数を使って、データ品質の形式的側面を理解します。具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が高いことを示す。多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多種多様なデータセットを構築するために使用できると推測する。
参考スコア（独自算出の注目度）: 12.76278784443243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current trends to pre-train capable Large Language Models (LLMs) mostly focus on scaling of model and dataset size. However, the quality of pre-training data is an important factor for training powerful LLMs, yet it is a nebulous concept that has not been fully characterized. Therefore, we use the recently proposed Task2Vec diversity coefficient to ground and understand formal aspects of data quality, to go beyond scale alone. Specifically, we measure the diversity coefficient of publicly available pre-training datasets to demonstrate that their formal diversity is high when compared to theoretical lower and upper bounds. In addition, to build confidence in the diversity coefficient, we conduct interpretability experiments and find that the coefficient aligns with intuitive properties of diversity, e.g., it increases as the number of latent concepts increases. We conclude the diversity coefficient is reliable, show it's high for publicly available LLM datasets, and conjecture it can be used to build useful diverse datasets for LLMs.
Abstract（参考訳）: 有能な大規模言語モデル(llm)を事前学習する現在のトレンドは、主にモデルとデータセットサイズのスケーリングに重点を置いている。しかし、事前学習データの質は強力なLCMを訓練する上で重要な要素であるが、十分に評価されていない誤った概念である。そこで、最近提案されたTask2Vecの多様性係数を用いて、データ品質の形式的側面を基礎化し、理解し、スケールのみを超えていく。具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が理論的下限および上限と比較して高いことを示す。さらに、多様性係数の信頼性を高めるために、解釈可能性実験を行い、その係数が多様性の直感的な性質、例えば潜在概念の数が増加するにつれて増加することを確認する。多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多様なデータセットを構築するために使用できると推測する。

関連論文リスト

IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T06:42:44Z)
Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文参考訳（メタデータ） (2025-04-16T23:02:23Z)
Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
論文参考訳（メタデータ） (2025-02-24T14:20:22Z)
Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文参考訳（メタデータ） (2025-01-15T00:56:59Z)
Diversity Over Quantity: A Lesson From Few Shot Relation Classification [62.66895901654023]
多様な関係の集合に対するトレーニングは、モデルが目に見えない関係を一般化する能力を大幅に向上させることを示す。我々は、既存のデータセットよりも桁違いに多くの関係型を組み込んだ新しいFSRCベンチマークであるREBEL-FSを紹介する。
論文参考訳（メタデータ） (2024-12-06T21:41:01Z)
On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文参考訳（メタデータ） (2024-10-19T22:14:07Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
G-DIG: Towards Gradient-based Diverse and High-quality Instruction Data Selection for Machine Translation [21.506844286376275]
本稿では,機械翻訳のための高品質かつ多様な命令微調整データを自動的に選択する,勾配に基づく新しい手法を提案する。私たちの重要なイノベーションは、個々のトレーニング例がトレーニング中にモデルにどのように影響するかを分析することです。
論文参考訳（メタデータ） (2024-05-21T16:38:13Z)
LMD3: Language Model Data Density Dependence [78.76731603461832]
我々は,学習データ密度推定に基づいて,言語モデルタスクのパフォーマンスを個別の例レベルで解析する手法を開発した。微調整データに対する制御的介入としてパラフレーズを用いた実験は、特定のテストクエリに対するトレーニング分布のサポートの増加が、測定可能な密度の増加をもたらすことを示した。我々は,学習データのサブセットに対象モデルの予測が依存していることの統計的証拠を提供することができると結論付けた。
論文参考訳（メタデータ） (2024-05-10T09:03:27Z)
On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文参考訳（メタデータ） (2023-12-12T16:17:15Z)
Role of Structural and Conformational Diversity for Machine Learning Potentials [4.608732256350959]
量子力学におけるデータバイアスとモデル一般化の関係について検討する。この結果から,一般化指標の微妙なパターンが明らかになった。これらの知見は、QMデータ生成のための貴重な洞察とガイドラインを提供する。
論文参考訳（メタデータ） (2023-10-30T19:33:12Z)
On the Connection between Pre-training Data Diversity and Fine-tuning Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文参考訳（メタデータ） (2023-07-24T05:36:19Z)
On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文参考訳（メタデータ） (2023-05-20T16:23:50Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。