論文の概要: LongWanjuan: Towards Systematic Measurement for Long Text Quality
- arxiv url: http://arxiv.org/abs/2402.13583v2
- Date: Thu, 22 Feb 2024 03:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 11:42:47.075658
- Title: LongWanjuan: Towards Systematic Measurement for Long Text Quality
- Title(参考訳): longwanjuan: 長文品質の体系的測定に向けて
- Authors: Kai Lv, Xiaoran Liu, Qipeng Guo, Hang Yan, Conghui He, Xipeng Qiu and
Dahua Lin
- Abstract要約: LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
- 参考スコア(独自算出の注目度): 102.46517202896521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of training data are crucial for enhancing the long-text
capabilities of foundation models. Despite existing efforts to refine data
quality through heuristic rules and evaluations based on data diversity and
difficulty, there's a lack of systematic approaches specifically tailored for
assessing long texts. Addressing this gap, our work systematically measures the
quality of long texts by evaluating three fundamental linguistic dimensions:
coherence, cohesion, and complexity. Drawing inspiration from the
aforementioned three dimensions, we introduce a suite of metrics designed to
evaluate the quality of long texts, encompassing both statistical and
pre-trained language model-based ones. Leveraging these metrics, we present
LongWanjuan, a bilingual dataset specifically tailored to enhance the training
of language models for long-text tasks with over 160B tokens. In LongWanjuan,
we categorize long texts into holistic, aggregated, and chaotic types, enabling
a detailed analysis of long-text quality. Furthermore, we devise a data mixture
recipe that strategically balances different types of long texts within
LongWanjuan, leading to significant improvements in model performance on
long-text tasks. The code and dataset are available at
https://github.com/OpenLMLab/LongWanjuan.
- Abstract(参考訳): 基礎モデルの長文能力を高めるためには,トレーニングデータの質が不可欠である。
データの多様性と難易度に基づいたヒューリスティックなルールと評価を通じてデータ品質を洗練しようとする既存の取り組みにもかかわらず、長いテキストを評価するために特別に調整された体系的なアプローチが欠如している。
このギャップに対処するため,本研究は,コヒーレンス,コヒーレンス,複雑性という3つの基本的な言語次元を評価することにより,長文の品質を体系的に測定する。
上記の3次元から着想を得て,統計モデルと事前学習した言語モデルを基にした長文の品質評価を行うためのメトリクススイートを提案する。
これらのメトリクスを活用することで、160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたバイリンガルデータセットであるLongWanjuanを提示する。
longwanjuanでは、長いテキストを全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
さらに,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
コードとデータセットはhttps://github.com/openlmlab/longwanjuanで入手できる。
関連論文リスト
- LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
ロングフォームテキスト生成は、設計提案やクリエイティブな文章作成といったアプリケーションには不可欠である。
新しいロングフォームテキスト評価ベンチマークであるLongGenBenchは、生成されたロングテキストシーケンス内の特定のイベントを識別するモデルの能力をテストする。
論文 参考訳(メタデータ) (2024-09-03T17:25:54Z) - LongLaMP: A Benchmark for Personalized Long-form Text Generation [87.41296912519992]
長文言語モデルパーソナライゼーション(LongLaMP)ベンチマークを開発した。
LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。
その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-06-27T01:52:05Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。