論文の概要: Evaluating Large Language Models for Generalization and Robustness via
Data Compression
- arxiv url: http://arxiv.org/abs/2402.00861v2
- Date: Sun, 4 Feb 2024 01:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 12:12:20.780124
- Title: Evaluating Large Language Models for Generalization and Robustness via
Data Compression
- Title(参考訳): データ圧縮による一般化とロバスト性のための大規模言語モデルの評価
- Authors: Yucheng Li, Yunhao Guo, Frank Guerin, Chenghua Lin
- Abstract要約: 本稿では,データ圧縮に基づく評価手法を提案する。
具体的には、2017年から2023年までの83ヶ月にわたる包括的なテストデータを収集し、モデルのトレーニングデータ遮断に従って、データをトレーニングとテスト期間に分割します。
実験では、ウィキペディア、ニュース記事、コード、arXiv論文、マルチモーダルデータなど、様々な規模の大言語モデル14を検証した。
- 参考スコア(独自算出の注目度): 19.17779153163157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for evaluating large language models face challenges such as
data contamination, sensitivity to prompts, and the high cost of benchmark
creation. To address this, we propose a lossless data compression based
evaluation approach that tests how models' predictive abilities generalize
after their training cutoff. Specifically, we collect comprehensive test data
spanning 83 months from 2017 to 2023 and split the data into training and
testing periods according to models' training data cutoff. We measure: 1) the
compression performance on the testing period as a measure of generalization on
unseen data; and 2) the performance gap between the training and testing period
as a measure of robustness. Our experiments test 14 representative large
language models with various sizes on sources including Wikipedia, news
articles, code, arXiv papers, and multi-modal data. We find that the
compression rate of many models reduces significantly after their cutoff date,
but models such as Mistral and Llama-2 demonstrate a good balance between
performance and robustness. Results also suggest that models struggle to
generalize on news and code data, but work especially well on arXiv papers. We
also find the context size and tokenization implementation have a big impact of
on the overall compression performance.
- Abstract(参考訳): 既存の大規模言語モデルの評価方法は、データの汚染、プロンプトに対する感度、ベンチマーク作成のコストなどの課題に直面している。
そこで本研究では,学習停止後のモデルの予測能力の一般化を検証し,損失のないデータ圧縮に基づく評価手法を提案する。
具体的には、2017年から2023年までの83ヶ月にわたる包括的なテストデータを収集し、モデルのトレーニングデータ遮断に従って、データをトレーニングとテスト期間に分割します。
測定します
1) 目に見えないデータの一般化の手段としての試験期間における圧縮性能
2) 頑健性の尺度として, 訓練期間と試験期間の成績差が認められた。
我々の実験では、ウィキペディア、ニュース記事、コード、arxiv論文、マルチモーダルデータなど、さまざまな大きさの大規模言語モデル14をテストした。
しかし,mistralやllama-2などのモデルでは,性能とロバスト性のバランスが良好であることが判明した。
結果は、モデルがニュースやコードデータの一般化に苦しむが、特にarxivの論文でうまく機能することを示唆している。
また、コンテキストサイズとトークン化の実装が、全体的な圧縮パフォーマンスに大きな影響を与えることも分かりました。
関連論文リスト
- Self-calibration for Language Model Quantization and Pruning [38.00221764773372]
量子化とプルーニングはモデル圧縮の基本的なアプローチである。
トレーニング後の環境では、最先端の量子化とプルーニングの方法はキャリブレーションデータを必要とする。
自己校正を解決策として提案する。
論文 参考訳(メタデータ) (2024-10-22T16:50:00Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Test-Time Training on Nearest Neighbors for Large Language Models [25.365366617508663]
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
論文 参考訳(メタデータ) (2023-05-29T08:03:28Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。