論文の概要: Factual Inconsistency in Data-to-Text Generation Scales Exponentially with LLM Size: A Statistical Validation
- arxiv url: http://arxiv.org/abs/2502.12372v1
- Date: Mon, 17 Feb 2025 23:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:26.623831
- Title: Factual Inconsistency in Data-to-Text Generation Scales Exponentially with LLM Size: A Statistical Validation
- Title(参考訳): LLMサイズに比例したデータ・テキスト・ジェネレーション・スケールのFactual Unconsistency:統計的検証
- Authors: Joy Mahapatra, Soumyajit Roy, Utpal Garain,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のサイズがデータ・テキスト生成(D2T)における現実的矛盾に与える影響を考察する。
本稿では,予測性能評価,適合性評価,比較分析の3つの主要な段階からなる統計的検証フレームワークを用いる。
総合的な実証研究として,5つのD2Tデータセットにまたがる3つのLLMファミリーを分析し,4つの最先端整合性指標を用いて,事実整合性を測定した。
- 参考スコア(独自算出の注目度): 1.6795461001108096
- License:
- Abstract: Monitoring factual inconsistency is essential for ensuring trustworthiness in data-to-text generation (D2T). While large language models (LLMs) have demonstrated exceptional performance across various D2T tasks, previous studies on scaling laws have primarily focused on generalization error through power law scaling to LLM size (i.e., the number of model parameters). However, no research has examined the impact of LLM size on factual inconsistency in D2T. In this paper, we investigate how factual inconsistency in D2T scales with LLM size by exploring two scaling laws: power law and exponential scaling. To rigorously evaluate and compare these scaling laws, we employ a statistical validation framework consisting of three key stages: predictive performance estimation, goodness-of-fit assessment, and comparative analysis. For a comprehensive empirical study, we analyze three popular LLM families across five D2T datasets, measuring factual inconsistency inversely using four state-of-the-art consistency metrics. Our findings, based on exhaustive empirical results and validated through our framework, reveal that, contrary to the widely assumed power law scaling, factual inconsistency in D2T follows an exponential scaling with LLM size.
- Abstract(参考訳): データ・トゥ・テキスト・ジェネレーション(D2T)における信頼性を確保するためには,事実の不整合の監視が不可欠である。
大規模言語モデル(LLM)は様々なD2Tタスクにおいて例外的な性能を示したが、スケーリング法則に関するこれまでの研究は、主に電力法則スケーリングからLLMサイズ(すなわちモデルパラメータの数)への一般化エラーに焦点を当てていた。
しかし,LLMサイズがD2Tの現実的不整合に及ぼす影響について検討する研究は行われていない。
本稿では,D2Tにおける実測値の不整合がLLMサイズとどのように一致しているかを,電力法則と指数スケーリングという2つのスケーリング法則を探索することによって検討する。
これらのスケーリング法則を厳密に評価・比較するために,予測性能推定,適合性評価,比較分析の3つの主要な段階からなる統計的検証フレームワークを用いる。
総合的な実証研究として,5つのD2Tデータセットにまたがる3つのLLMファミリーを分析し,4つの最先端整合性指標を用いて,事実整合性を測定した。
本研究は, 実証実験の結果から, 広く想定されている電力法スケーリングとは対照的に, D2Tにおける現実的不整合は, LLMサイズによる指数的スケーリングに従うことが明らかとなった。
関連論文リスト
- Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families [43.36524246307057]
大規模言語モデル(LLM)のスケーリング法則は、サイズやトレーニングデータといったパラメータに基づいてパフォーマンスを予測する。
我々は、公開されているベンチマークデータを活用する新しいスケーリング法則であるSkills Scaling Laws (SSLaws)を提案する。
パラメータ同定と経験的評価について,12のベンチマークで理論的に検討した。
論文 参考訳(メタデータ) (2024-12-09T14:51:26Z) - Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。
本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。
モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。
次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-12-02T13:58:35Z) - An Extensive Evaluation of Factual Consistency in Large Language Models for Data-to-Text Generation [1.8876415010297893]
大規模言語モデル(LLM)は、様々なデータ・テキスト生成(DTG)タスクで例外的なパフォーマンスを示している。
DTGで事実上一貫したテキストを生成することは、LLMにとって依然として困難である。
本稿では,DTG 用 LLM の事実整合性について広範囲に評価する。
論文 参考訳(メタデータ) (2024-11-28T15:23:12Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation [1.8876415010297893]
Data-to-text (D2T) の生成は、テーブルやグラフなどの半構造化データから可読なテキストを生成することを目的としている。
D2Tタスク用微調整LDMの性能に及ぼすモデルサイズの影響を示す研究は行われていない。
我々は、広く使われている5つのD2Tデータセットにまたがって、モデルサイズをスケールする利点と限界の両方を解明することを目指している。
論文 参考訳(メタデータ) (2024-07-19T07:54:30Z) - Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
コーディングデータは、事前訓練中に推論能力を高めることで知られています。
IFTにおける内的推論能力の活性化におけるその役割はいまだ検討されている。
IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文 参考訳(メタデータ) (2024-05-30T23:20:25Z) - Temporal Scaling Law for Large Language Models [24.12384260752973]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。