論文の概要: Paloma: A Benchmark for Evaluating Language Model Fit
- arxiv url: http://arxiv.org/abs/2312.10523v1
- Date: Sat, 16 Dec 2023 19:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:06:26.260849
- Title: Paloma: A Benchmark for Evaluating Language Model Fit
- Title(参考訳): paloma: 言語モデル適合性を評価するベンチマーク
- Authors: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya
Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar,
Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith,
Kyle Richardson, Jesse Dodge
- Abstract要約: 言語モデルアセスメント(Paloma)は585のテキストドメインに適合する。
一般的なコーパスで事前学習したベースラインの結果をベンチマークに投入する。
- 参考スコア(独自算出の注目度): 114.63031978259467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) commonly report perplexity on monolithic data held out
from training. Implicitly or explicitly, this data is composed of
domains$\unicode{x2013}$varying distributions of language. Rather than assuming
perplexity on one distribution extrapolates to others, Perplexity Analysis for
Language Model Assessment (Paloma), measures LM fit to 585 text domains,
ranging from nytimes.com to r/depression on Reddit. We invite submissions to
our benchmark and organize results by comparability based on compliance with
guidelines such as removal of benchmark contamination from pretraining.
Submissions can also record parameter and training token count to make
comparisons of Pareto efficiency for performance as a function of these
measures of cost. We populate our benchmark with results from 6 baselines
pretrained on popular corpora. In case studies, we demonstrate analyses that
are possible with Paloma, such as finding that pretraining without data beyond
Common Crawl leads to inconsistent fit to many domains.
- Abstract(参考訳): 言語モデル(LM)は通常、トレーニングから持ち出されたモノリシックなデータに難易度を報告します。
暗黙的または明示的に、このデータはドメイン$\unicode{x2013}$ various distributions of languageで構成されている。
Perplexity Analysis for Language Model Assessment (Paloma)は、あるディストリビューションのパープレクティリティを他のディストリビューションに推定するのではなく、nytimes.comからRedditのr/depressionまで、585のテキストドメインに適合するLMを測定する。
我々は、ベンチマークへの提出を招待し、事前トレーニングからのベンチマーク汚染除去などのガイドラインに準拠したコンパラビリティによる結果の整理を行う。
また、パラメータとトレーニングトークン数を記録して、これらのコスト尺度の関数としてパレート効率の比較を行うこともできる。
ベンチマークの結果は,人気のコーパスで事前トレーニングされた6つのベースラインから得られたものです。
ケーススタディでは、一般的なクロール以外のデータを持たない事前トレーニングが多くの領域に不整合をもたらすことなど、パロマで可能な分析を実証する。
関連論文リスト
- TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1B と 3B のパラメータサイズで最初の大容量バングラ LLM である TituLLMs を提示する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models [10.482557806309174]
セマンティックフレーズ処理タスクにおける言語モデル(LM)のテストを可能にする総合評価スイートであるLexBenchを紹介する。
我々のベンチマークにより、モデルアーキテクチャにおける15のLMの性能と、分類、抽出、解釈タスクにおけるパラメータスケールを評価する。
我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
論文 参考訳(メタデータ) (2024-05-05T09:20:38Z) - Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文 参考訳(メタデータ) (2024-02-27T23:29:10Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。