論文の概要: Oasis: Data Curation and Assessment System for Pretraining of Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.12537v1
- Date: Tue, 21 Nov 2023 11:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:51:04.104411
- Title: Oasis: Data Curation and Assessment System for Pretraining of Large
Language Models
- Title(参考訳): Oasis:大規模言語モデルの事前学習のためのデータキュレーションと評価システム
- Authors: Tong Zhou, Yubo Chen, Pengfei Cao, Kang Liu, Jun Zhao, Shengping Liu
- Abstract要約: 我々は,Oasisと呼ばれるプレトレーニングコーパスキュレーションと評価プラットフォームを提案する。
インタラクティブなモジュラールールフィルタモジュールは、明示的なフィードバックに従ってカスタマイズされたルールを作成できる。
適応的なドキュメント重複モジュールは、限られたメモリリソースで大規模な重複を実行することができる。
- 参考スコア(独自算出の注目度): 25.863290505055588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is one of the most critical elements in building a large language model.
However, existing systems either fail to customize a corpus curation pipeline
or neglect to leverage comprehensive corpus assessment for iterative
optimization of the curation. To this end, we present a pretraining corpus
curation and assessment platform called Oasis -- a one-stop system for data
quality improvement and quantification with user-friendly interactive
interfaces. Specifically, the interactive modular rule filter module can devise
customized rules according to explicit feedback. The debiased neural filter
module builds the quality classification dataset in a negative-centric manner
to remove the undesired bias. The adaptive document deduplication module could
execute large-scale deduplication with limited memory resources. These three
parts constitute the customized data curation module. And in the holistic data
assessment module, a corpus can be assessed in local and global views, with
three evaluation means including human, GPT-4, and heuristic metrics. We
exhibit a complete process to use Oasis for the curation and assessment of
pretraining data. In addition, an 800GB bilingual corpus curated by Oasis is
publicly released.
- Abstract(参考訳): データは、大きな言語モデルを構築する上で最も重要な要素の1つです。
しかしながら、既存のシステムはコーパスキュレーションパイプラインのカスタマイズに失敗したり、包括的コーパス評価を無視してキュレーションの反復最適化を行う。
そこで我々は,データ品質の改善とユーザフレンドリなインターフェースによる定量化のためのワンストップシステムであるOasisという,事前学習型コーパスキュレーションと評価プラットフォームを提案する。
具体的には、インタラクティブなモジュラールールフィルタモジュールは明示的なフィードバックに従ってカスタマイズされたルールを作成できる。
debiased neural filterモジュールは、望ましくないバイアスを取り除くために、品質分類データセットを負中心に構築する。
adaptive document deduplicationモジュールは、限られたメモリリソースで大規模な重複排除を実行することができる。
これら3つの部分は、カスタマイズされたデータキュレーションモジュールを構成する。
また, 包括的データ評価モジュールでは, 人間, GPT-4, ヒューリスティックメトリクスを含む3つの評価手段を用いて, コーパスを局所的, グローバル的に評価することができる。
我々は,事前学習データのキュレーションと評価にoasisを使用するための完全なプロセスを示す。
また、オアシスがキュレートした800GBのバイリンガルコーパスも公開されている。
関連論文リスト
- Core: Robust Factual Precision with Informative Sub-Claim Identification [44.36892500212747]
スコアを人工的にインフレーションするために、明らかまたは反復的なサブステートメントを追加することで、人気のあるメトリクスを操作できることを観察する。
この観察は、Coreと呼ばれる新しいカスタマイズ可能なプラグインとプレイのサブステート選択コンポーネントを動機付けます。
Coreによって強化された多くの一般的な事実精度指標が、幅広い知識領域においてかなり堅牢であることを示す。
論文 参考訳(メタデータ) (2024-07-04T01:51:38Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - DictLLM: Harnessing Key-Value Data Structures with Large Language Models
for Enhanced Medical Diagnostics [36.057925881268226]
DictLLMは、医学実験室報告のようなキーバリュー構造化データのモデリングを改善するために設計された革新的なフレームワークである。
診断自動生成のための総合的な実世界医療実験室レポートデータセットを用いて,様々なLCMモデルを用いた実験を行った。
論文 参考訳(メタデータ) (2024-02-18T07:10:02Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Identifying Untrustworthy Samples: Data Filtering for Open-domain
Dialogues with Bayesian Optimization [28.22184410167622]
オープンドメイン対話のためのデータフィルタリング手法を提案する。
トレーニングサンプルを品質基準で評価し、下位順にソートし、下位でそれらをフィルタリングします。
2つのデータセットに対する実験結果から,本手法は信頼できないサンプルを効果的に同定できることが示唆された。
論文 参考訳(メタデータ) (2021-09-14T06:42:54Z) - PyHealth: A Python Library for Health Predictive Models [53.848478115284195]
PyHealthは、医療データ上で様々な予測モデルを開発するためのオープンソースのPythonツールボックスである。
データ前処理モジュールにより、複雑なヘルスケアデータセットを機械学習フレンドリーなフォーマットに変換できます。
予測モデリングモジュールは、確立されたアンサンブルツリーとディープニューラルネットワークベースのアプローチを含む30以上の機械学習モデルを提供します。
論文 参考訳(メタデータ) (2021-01-11T22:02:08Z) - Compressive Summarization with Plausibility and Salience Modeling [54.37665950633147]
本稿では,候補空間に対する厳密な構文的制約を緩和し,その代わりに圧縮決定を2つのデータ駆動基準,すなわち妥当性とサリエンスに委ねることを提案する。
提案手法は,ベンチマーク要約データセット上で強いドメイン内結果を得るとともに,人間による評価により,文法的および事実的削除に対して,可算性モデルが一般的に選択されることを示す。
論文 参考訳(メタデータ) (2020-10-15T17:07:10Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。