Fugu-MT 論文翻訳(概要): Technical Report: Competition Solution For BetterMixture

論文の概要: Technical Report: Competition Solution For BetterMixture

arxiv url: http://arxiv.org/abs/2403.13233v1
Date: Wed, 20 Mar 2024 01:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 18:27:31.895062
Title: Technical Report: Competition Solution For BetterMixture
Title（参考訳）: テクニカルレポート:BetterMixtureの競合ソリューション
Authors: Shuaijiang Zhao, Xiaoquan Fang,
Abstract要約: 本稿では、大規模言語モデルの微調整データ混合に焦点を当てたBetterMixtureチャレンジのソリューションについて詳述する。 3位を確保した当社のアプローチには,データの重複,低レベルかつ高品質なフィルタリング,多様性の選択などが取り入れられている。私たちのソリューションの基盤はKe-Data-Juicerで、大規模言語モデルのデータの処理と最適化における堅牢な能力を実証しています。
参考スコア（独自算出の注目度）: 1.2482895582813895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of flourishing large-scale models, the challenge of selecting and optimizing datasets from the vast and complex sea of data, to enhance the performance of large language models within the constraints of limited computational resources, has become paramount. This paper details our solution for the BetterMixture challenge, which focuses on the fine-tuning data mixing for large language models. Our approach, which secured third place, incorporates data deduplication, low-level and high-level quality filtering, and diversity selection. The foundation of our solution is Ke-Data-Juicer, an extension of Data-Juicer, demonstrating its robust capabilities in handling and optimizing data for large language models.
Abstract（参考訳）: 大規模モデルの普及期には、限られた計算資源の制約の中で、大規模で複雑なデータからデータセットを選択し、最適化するという課題が最重要となっている。本稿では、大規模言語モデルの微調整データ混合に焦点を当てたBetterMixtureチャレンジのソリューションについて詳述する。 3位を確保した当社のアプローチには,データの重複,低レベルかつ高品質なフィルタリング,多様性の選択などが取り入れられている。私たちのソリューションの基盤は、Data-Juicerの拡張であるKe-Data-Juicerです。

関連論文リスト

Exploring the Heterogeneity of Tabular Data: A Diversity-aware Data Generator via LLMs [7.355858495660162]
DATE(Diversity-Aware Tabular data gEnerator)は、文脈内学習のための高品質で分散的な例を作成するフレームワークである。 DATEはLarge Language Models(LLM)を使用して、分割された分布の多様性をフィードバックとして決定木推論で探索し、各サブセットに対して高品質なラベル付きデータを生成する。 DATEは平均23.75%のエラー率で100のデータしか生成しない。
論文参考訳（メタデータ） (2025-12-26T08:02:51Z)
Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap [13.89078939095465]
本稿では,DPOの暗黙的な報酬機構を基盤とした,嗜好データセットの難易度に基づく新たなデータ選択手法を提案する。このアプローチは、複数のデータセットとアライメントタスクで、5つの強力なベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-08-06T07:24:14Z)
Large-Scale Diverse Synthesis for Mid-Training [15.81154701009597]
BoostQAは100Bの大規模質問回答データセットである。本稿では,BoostQAを合成するための新しい多様化パイプラインを提案する。提案手法は,Llama-3 8Bを40Bトーケンデータセットで中級訓練し,MMLUとCMMLUで平均$mathbf12.74%の改善を実現する。
論文参考訳（メタデータ） (2025-08-02T11:37:16Z)
C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning [78.36259648527401]
C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。 C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
論文参考訳（メタデータ） (2025-07-22T12:27:08Z)
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training [10.769503491579666]
マルチステージプロセスで生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。我々は、トピックによって混合されたデータに基づいて事前訓練された言語モデルは、ソースによって混合されたデータで訓練された言語よりも一貫して優れていることを示した。理論的解析により,トピックベースのデータは,ソースベースのアプローチに比べて検証損失が著しく低いことがわかった。
論文参考訳（メタデータ） (2025-02-24T03:25:56Z)
Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation [18.474302012851087]
そこで本研究では,データセット蒸留のための2段階の解法を提案する。まず、最も情報性の高いパッチのみを選択して、コアセットを形成することでデータセットを圧縮する。次に、この圧縮された集合をリアルタイムで動的に拡張するために、生成基礎モデルを活用する。いくつかの大規模データセット蒸留ベンチマークでは,最先端技術と比較して10%以上の顕著な改善がみられた。
論文参考訳（メタデータ） (2024-12-05T23:40:27Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文参考訳（メタデータ） (2024-10-12T02:48:34Z)
Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文参考訳（メタデータ） (2024-10-10T13:00:53Z)
SSE: Multimodal Semantic Data Selection and Enrichment for Industrial-scale Data Assimilation [29.454948190814765]
近年、人工知能のために収集されたデータは、管理不能な量に成長している。セマンティックに多様で重要なデータセット部分を選択するためのフレームワークを提案する。巨大なラベルのないデータプールから意味のある新しいデータを発見することで、さらにセマンティックに強化します。
論文参考訳（メタデータ） (2024-09-20T19:17:52Z)
Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文参考訳（メタデータ） (2024-09-17T17:22:35Z)
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文参考訳（メタデータ） (2024-07-29T05:00:48Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。