Fugu-MT 論文翻訳(概要): Data Processing for the OpenGPT-X Model Family

論文の概要: Data Processing for the OpenGPT-X Model Family

arxiv url: http://arxiv.org/abs/2410.08800v1
Date: Fri, 11 Oct 2024 13:34:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 21:55:58.054604
Title: Data Processing for the OpenGPT-X Model Family
Title（参考訳）: OpenGPT-Xモデルファミリーのデータ処理
Authors: Nicolo' Brandizzi, Hammam Abdelwahab, Anirban Bhowmick, Lennard Helmer, Benny Jörg Stein, Pavel Denisov, Qasid Saleem, Michael Fromm, Mehdi Ali, Richard Rutmann, Farzad Naderi, Mohamad Saif Agy, Alexander Schwirjow, Fabian Küch, Luzian Hahn, Malte Ostendorff, Pedro Ortiz Suarez, Georg Rehm, Dennis Wegener, Nicolas Flores-Herr, Joachim Köhler, Johannes Leveling,
Abstract要約: 本稿では,OpenGPT-Xプロジェクトで開発されたデータ準備パイプラインの概要について述べる。プロジェクトの目的は、オープンで高性能な多言語大言語モデル(LLM)を作ることである。データ選択と要件定義からモデルトレーニングの最終データセットの準備まで、すべてのデータ処理手順を説明します。
参考スコア（独自算出の注目度）: 32.8178473342263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a comprehensive overview of the data preparation pipeline developed for the OpenGPT-X project, a large-scale initiative aimed at creating open and high-performance multilingual large language models (LLMs). The project goal is to deliver models that cover all major European languages, with a particular focus on real-world applications within the European Union. We explain all data processing steps, starting with the data selection and requirement definition to the preparation of the final datasets for model training. We distinguish between curated data and web data, as each of these categories is handled by distinct pipelines, with curated data undergoing minimal filtering and web data requiring extensive filtering and deduplication. This distinction guided the development of specialized algorithmic solutions for both pipelines. In addition to describing the processing methodologies, we provide an in-depth analysis of the datasets, increasing transparency and alignment with European data regulations. Finally, we share key insights and challenges faced during the project, offering recommendations for future endeavors in large-scale multilingual data preparation for LLMs.
Abstract（参考訳）: 本稿では,オープンかつ高性能な多言語大言語モデル(LLM)の構築を目的とした大規模イニシアチブであるOpenGPT-Xプロジェクトで開発されたデータ準備パイプラインの概要について述べる。プロジェクトの目標は、欧州連合内の現実世界のアプリケーションに特に焦点を絞った、主要なヨーロッパのすべての言語をカバーするモデルを提供することだ。データ選択と要件定義からモデルトレーニングの最終データセットの準備まで、すべてのデータ処理手順を説明します。これらのカテゴリはそれぞれ異なるパイプラインで処理され、キュレートされたデータは最小限のフィルタリングとWebデータを必要とするため、キュレートされたデータとWebデータとを区別します。この区別は、両方のパイプラインのための特別なアルゴリズムソリューションの開発を導いた。処理方法の説明に加えて、データセットの詳細な分析、透明性の向上、ヨーロッパのデータ規制との整合性も提供する。最後に、プロジェクト中に直面する重要な洞察と課題を共有し、LLMの大規模多言語データ準備における今後の取り組みを推奨する。

関連論文リスト

TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:45:28Z)
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language [48.79534869177174]
我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
論文参考訳（メタデータ） (2025-06-26T01:01:47Z)
TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes [25.05627023905607]
モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
論文参考訳（メタデータ） (2025-05-16T14:03:30Z)
CoddLLM: Empowering Large Language Models for Data Analytics [38.23203246023766]
大規模言語モデル(LLM)は、データ分析に革命をもたらす可能性がある。我々は、Turbo後合成のための新しいデータレシピを公開した。我々はMistralNeMo-12Bに基づく新しい基礎モデルであるCoddLLMをポストトレーニングする。
論文参考訳（メタデータ） (2025-02-01T06:03:55Z)
Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models [90.46966584238682]
ほとんどのオープンソースのビジョン言語モデルは、最終的なモデルウェイトのみを公開しており、データ戦略と実装に関する重要な詳細は、ほとんど不透明である。本稿では,フロンティアVLMの開発におけるデータ戦略の重要な役割を示すとともに,データ中心の観点からのVLMポストトレーニングに対処する。トレーニング後のデータ戦略をゼロから研究し、構築することで、私たちは開発プロセスに関する詳細な洞察を共有し、オープンソースコミュニティのための競争モデルの開発に役立てることを目指しています。
論文参考訳（メタデータ） (2025-01-20T18:40:47Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (2024-10-16T16:12:39Z)
Enabling Advanced Land Cover Analytics: An Integrated Data Extraction Pipeline for Predictive Modeling with the Dynamic World Dataset [1.3757956340051605]
Dynamic Worldデータセットを扱うために、フレキシブルで効率的なエンドツーエンドパイプラインを提示します。これには、ノイズ除去に取り組む前処理および表現フレームワーク、大量のデータの効率的な抽出、LULCデータの再表現が含まれる。パイプラインのパワーを実証するために、都市化予測問題のためのデータを抽出し、優れたパフォーマンスで機械学習モデルのスイートを構築する。
論文参考訳（メタデータ） (2024-10-11T16:13:01Z)
Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文参考訳（メタデータ） (2024-09-26T04:30:32Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文参考訳（メタデータ） (2024-02-21T00:44:04Z)
Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文参考訳（メタデータ） (2023-12-21T14:20:06Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
Data-to-Value: An Evaluation-First Methodology for Natural Language Projects [3.9378507882929554]
Data to Value"(D2V)は、ビッグデータテキスト分析プロジェクトのための新しい方法論である。ビッグデータテキスト分析プロジェクトチームとトピック間の切断を避けるため、質問の詳細なカタログでガイドされている。
論文参考訳（メタデータ） (2022-01-19T17:04:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。