論文の概要: Paloma: A Benchmark for Evaluating Language Model Fit
- arxiv url: http://arxiv.org/abs/2312.10523v2
- Date: Sat, 07 Dec 2024 20:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:52.497705
- Title: Paloma: A Benchmark for Evaluating Language Model Fit
- Title(参考訳): Paloma: 言語モデルの適合性を評価するベンチマーク
- Authors: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge,
- Abstract要約: 言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
- 参考スコア(独自算出の注目度): 112.481957296585
- License:
- Abstract: Evaluations of language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domains--varying distributions of language. We introduce Perplexity Analysis for Language Model Assessment (Paloma), a benchmark to measure LM fit to 546 English and code domains, instead of assuming perplexity on one distribution extrapolates to others. We include two new datasets of the top 100 subreddits (e.g., r/depression on Reddit) and programming languages (e.g., Java on GitHub), both sources common in contemporary LMs. With our benchmark, we release 6 baseline 1B LMs carefully controlled to provide fair comparisons about which pretraining corpus is best and code for others to apply those controls to their own experiments. Our case studies demonstrate how the fine-grained results from Paloma surface findings such as that models pretrained without data beyond Common Crawl exhibit anomalous gaps in LM fit to many domains or that loss is dominated by the most frequently occurring strings in the vocabulary.
- Abstract(参考訳): 言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
暗黙的または明示的に、このデータはドメインによって異なる言語の分布で構成されている。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
その中には、上位100のサブレディット(Redditではr/depression)とプログラミング言語(GitHubではJavaなど)の2つの新しいデータセットが含まれています。
本ベンチマークでは,事前学習コーパスが最適かを公平に比較するために,注意深く制御された6つのベースライン1B LMと,それらの制御を自身の実験に適用するためのコードをリリースする。
ケーススタディでは,コモンクローリングを超えるデータなしで事前訓練されたモデルが,LMの異常なギャップを多くのドメインに当てはめるか,あるいは語彙の最も頻繁に発生する文字列によって損失が支配されるような,パロマ表面の詳細な結果が示されている。
関連論文リスト
- TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1B と 3B のパラメータサイズで最初の大容量バングラ LLM である TituLLMs を提示する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models [10.482557806309174]
セマンティックフレーズ処理タスクにおける言語モデル(LM)のテストを可能にする総合評価スイートであるLexBenchを紹介する。
我々のベンチマークにより、モデルアーキテクチャにおける15のLMの性能と、分類、抽出、解釈タスクにおけるパラメータスケールを評価する。
我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
論文 参考訳(メタデータ) (2024-05-05T09:20:38Z) - Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文 参考訳(メタデータ) (2024-02-27T23:29:10Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。