論文の概要: BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text
- arxiv url: http://arxiv.org/abs/2409.17827v1
- Date: Thu, 26 Sep 2024 13:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 18:44:57.084159
- Title: BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text
- Title(参考訳): BeanCounter: ビジネス指向テキストの低毒性、大規模、オープンデータセット
- Authors: Siyan Wang, Bradford Levy,
- Abstract要約: BeanCounterは、企業の開示から抽出された159B以上のトークンからなるパブリックデータセットである。
データの出所を考えると、BeanCounterはWebベースのデータセットよりも比較的現実的で毒性が低いという仮説を立てています。
有害な生成が18~33%減少し、継続的に事前訓練されたモデルに対するファイナンス領域内での性能が向上した。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the recent breakthroughs in language modeling have resulted from scaling effectively the same model architecture to larger datasets. In this vein, recent work has highlighted performance gains from increasing training dataset size and quality, suggesting a need for novel sources of large-scale datasets. In this work, we introduce BeanCounter, a public dataset consisting of more than 159B tokens extracted from businesses' disclosures. We show that this data is indeed novel: less than 0.1% of BeanCounter appears in Common Crawl-based datasets and it is an order of magnitude larger than datasets relying on similar sources. Given the data's provenance, we hypothesize that BeanCounter is comparatively more factual and less toxic than web-based datasets. Exploring this hypothesis, we find that many demographic identities occur with similar prevalence in BeanCounter but with significantly less toxic context relative to other datasets. To demonstrate the utility of BeanCounter, we evaluate and compare two LLMs continually pre-trained on BeanCounter with their base models. We find an 18-33% reduction in toxic generation and improved performance within the finance domain for the continually pretrained models. Collectively, our work suggests that BeanCounter is a novel source of low-toxicity and high-quality domain-specific data with sufficient scale to train multi-billion parameter LLMs.
- Abstract(参考訳): 言語モデリングにおける最近のブレークスルーの多くは、同じモデルアーキテクチャを大規模データセットに効果的にスケーリングすることによるものだ。
この点において、最近の研究は、トレーニングデータセットのサイズと品質の増加によるパフォーマンスの向上を強調し、大規模なデータセットの新たなソースの必要性を示唆している。
本研究では,企業の開示から抽出された159B以上のトークンからなる公開データセットであるBeanCounterを紹介する。
BeanCounterの0.1%未満がCommon Crawlベースのデータセットに現れており、同様のソースに依存するデータセットよりも桁違いに大きい。
データの出所を考えると、BeanCounterはWebベースのデータセットよりも比較的現実的で毒性が低いという仮説を立てています。
この仮説を探索した結果,BeanCounterでも同様の頻度で発生するが,他のデータセットと比較して有毒な文脈は極めて少ないことが判明した。
BeanCounterの実用性を実証するために,BeanCounter上で継続的にトレーニングされている2つのLCMとベースモデルを比較した。
有害な生成が18~33%減少し、継続的に事前訓練されたモデルに対するファイナンス領域内での性能が向上した。
本研究では,BeanCounterがマルチビリオンパラメータLLMのトレーニングに十分なスケールで,低毒性で高品質なドメイン固有データの新たな情報源であることを示す。
関連論文リスト
- InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Zyda: A 1.3T Dataset for Open Language Modeling [10.973515151563427]
Zydaは1.3兆のトークンからなる寛容なライセンス下でのデータセットで、主要なオープンソースのデータセットを単一の高品質なコーパスに統合することによって組み立てられる。
我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
論文 参考訳(メタデータ) (2024-06-04T05:47:17Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Hallucination Augmented Recitations for Language Models [1.6080650468299018]
本稿では, 言語モデルにおける幻覚を利用して, 対実的データセットを作成するためのHARを提案する。
ケーススタディとしてオープンブックQAについて,本論文のデータセットを微調整したモデルでは,テキストのグラウンド化が向上し,オープンブックQAのパフォーマンスが向上し,F1スコアが最大8.0%向上することを示した。
ファクトデータセットは,4倍小さいデータセットと4倍小さいモデルであっても,人為的なファクトデータセットを使用する場合よりも,はるかにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-13T15:58:18Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。