Fugu-MT 論文翻訳(概要): An Integrated Data Processing Framework for Pretraining Foundation Models

論文の概要: An Integrated Data Processing Framework for Pretraining Foundation Models

arxiv url: http://arxiv.org/abs/2402.16358v1
Date: Mon, 26 Feb 2024 07:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:13:01.847952
Title: An Integrated Data Processing Framework for Pretraining Foundation Models
Title（参考訳）: 基礎モデルの事前学習のための統合データ処理フレームワーク
Authors: Yiding Sun, Feng Wang, Yutao Zhu, Wayne Xin Zhao, Jiaxin Mao
Abstract要約: 研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
参考スコア（独自算出の注目度）: 61.66552412677197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability of the foundation models heavily relies on large-scale, diverse, and high-quality pretraining data. In order to improve data quality, researchers and practitioners often have to manually curate datasets from difference sources and develop dedicated data cleansing pipeline for each data repository. Lacking a unified data processing framework, this process is repetitive and cumbersome. To mitigate this issue, we propose a data processing framework that integrates a Processing Module which consists of a series of operators at different granularity levels, and an Analyzing Module which supports probing and evaluation of the refined data. The proposed framework is easy to use and highly flexible. In this demo paper, we first introduce how to use this framework with some example use cases and then demonstrate its effectiveness in improving the data quality with an automated evaluation with ChatGPT and an end-to-end evaluation in pretraining the GPT-2 model. The code and demonstration videos are accessible on GitHub.
Abstract（参考訳）: 基礎モデルの能力は、大規模で多様で高品質な事前学習データに大きく依存している。データ品質を改善するために、研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートし、データリポジトリごとに専用のデータクリーニングパイプラインを開発する必要がある。統一されたデータ処理フレームワークを欠いたこのプロセスは反復的で面倒です。この問題を軽減するために,異なる粒度レベルで一連の演算子で構成される処理モジュールと,改良されたデータの探索と評価をサポートする解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟性が高い。本稿では、まず、このフレームワークをいくつかのユースケースで利用する方法を紹介し、次に、ChatGPTによる自動評価とGPT-2モデルの事前訓練におけるエンドツーエンド評価によるデータ品質向上の有効性を示す。コードとデモビデオはGitHubからアクセスできる。

関連論文リスト

Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets [46.480867560675584]
アドホックなキュレーションからOpenDataArena(ODA)を用いたクローズドループデータセットエンジニアリングフレームワークへのパラダイムシフトを提案する。 textbfODA-Math460-kは、AIMEやHMMTなどのベンチマークでステート・オブ・ザ・アーツ(SOTA)結果を達成するために、新しい2段階の難易度対応パイプラインを利用する特殊な数学推論データセットであり、textbfODA-Mixture (100k & 500k) はアンカー・アンド・アンカーで構築された一連のマルチドメイン命令データセットである。
論文参考訳（メタデータ） (2025-12-30T17:46:38Z)
Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations [14.972702558607557]
6つの異なるデータセット間での複数要素の逐次的絡み合いを評価するための、最初の標準ベンチマークを導入する。本研究では,潜伏次元を意味因子と自動的に整列するポストホック潜伏探索段階を提案し,最先端の成果を達成できるクープマンモデルを提案する。私たちのコードはGitHubで、データセットとトレーニングされたモデルはHugging Faceで利用可能です。
論文参考訳（メタデータ） (2025-10-20T08:58:23Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models [64.28420991770382]
我々は,100以上の演算子が支援する実りあるデータ処理機能を提供する新しいシステムであるData-Juicer 2.0を提案する。このシステムは、さまざまな研究努力、実用的なアプリケーション、Alibaba Cloud PAIのような現実世界の製品で、公開され、積極的に維持され、広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
CoSense3D: an Agent-based Efficient Learning Framework for Collective Perception [0.552480439325792]
本稿では,よりクリーンなデータフロー構造を実現するために,ディープラーニングモジュールとエージェントデータを個別に扱うエージェントベースのトレーニングフレームワークを提案する。このフレームワークは、データ処理パイプラインをプロトタイピングし、各エージェントの勾配計算を定義するAPIを提供するだけでなく、インタラクティブなトレーニング、テスト、データ視覚化のためのユーザインターフェースも提供する。
論文参考訳（メタデータ） (2024-04-29T11:40:27Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。 FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文参考訳（メタデータ） (2022-07-28T17:40:47Z)
Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。 2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文参考訳（メタデータ） (2021-12-15T02:41:50Z)
Improving the Performance of Fine-Grain Image Classifiers via Generative Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。 DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文参考訳（メタデータ） (2020-08-12T15:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。