論文の概要: The Pile: An 800GB Dataset of Diverse Text for Language Modeling
- arxiv url: http://arxiv.org/abs/2101.00027v1
- Date: Thu, 31 Dec 2020 19:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 19:49:34.037408
- Title: The Pile: An 800GB Dataset of Diverse Text for Language Modeling
- Title(参考訳): The Pile: 言語モデリングのための800GBの多言語テキストデータセット
- Authors: Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe,
Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn
Presser, Connor Leahy
- Abstract要約: 大規模言語モデルの訓練を目的とした,825 GiB の英語テキストコーパス Pile' を提示する。
パイルは22の多様な高品質のサブセットから作られており、その多くは学術的または専門的な情報源に由来する。
- 参考スコア(独自算出の注目度): 2.3336168869135605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated that increased training dataset diversity
improves general cross-domain knowledge and downstream generalization
capability for large-scale language models. With this in mind, we present
\textit{the Pile}: an 825 GiB English text corpus targeted at training
large-scale language models. The Pile is constructed from 22 diverse
high-quality subsets -- both existing and newly constructed -- many of which
derive from academic or professional sources. Our evaluation of the untuned
performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on
many of its components, such as academic writing. Conversely, models trained on
the Pile improve significantly over both Raw CC and CC-100 on all components of
the Pile, while improving performance on downstream evaluations. Through an
in-depth exploratory analysis, we document potentially concerning aspects of
the data for prospective users. We make publicly available the code used in its
construction.
- Abstract(参考訳): 近年の研究では、訓練データセットの多様性の向上により、大規模言語モデルの汎用知識と下流一般化能力が向上することが示されている。
そこで本研究では,大規模言語モデルの学習を目的とした825 GiBの英語テキストコーパスであるtextit{the Pile}を提案する。
パイルは22の多様な高品質なサブセット - 既存のものと新しく作られたもの - から作られており、その多くは学術的あるいは専門的な情報源に由来する。
GPT-2 と GPT-3 のパイル上での未調整性能の評価は,これらのモデルが学術的記述など,その多くのコンポーネントに苦しむことを示す。
逆に、Pileでトレーニングされたモデルは、Raw CCとCC-100のいずれのコンポーネントよりも大幅に改善され、下流評価のパフォーマンスが向上した。
詳細な探索分析を通じて,将来性のあるユーザのためのデータの側面に関する可能性について文書化する。
構築に使用されるコードは公開しています。
関連論文リスト
- Empowering Persian LLMs for Instruction Following: A Novel Dataset and Training Approach [0.0]
FarsInstructは,大規模言語モデルの命令追従能力を高めるために設計されたデータセットである。
FarsInstructは21の異なるデータセットにわたる197のテンプレートで構成されています。
論文 参考訳(メタデータ) (2024-07-15T19:17:31Z) - Assessing generalization capability of text ranking models in Polish [0.0]
Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。
本稿では,ポーランド語におけるリランク問題に着目し,リランカーの性能について検討する。
私たちのモデルの中で最高のものは、ポーランド語で再ランク付けするための新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-22T06:21:41Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。