論文の概要: Technical Report: Competition Solution For BetterMixture
- arxiv url: http://arxiv.org/abs/2403.13233v1
- Date: Wed, 20 Mar 2024 01:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 18:27:31.895062
- Title: Technical Report: Competition Solution For BetterMixture
- Title(参考訳): テクニカルレポート:BetterMixtureの競合ソリューション
- Authors: Shuaijiang Zhao, Xiaoquan Fang,
- Abstract要約: 本稿では、大規模言語モデルの微調整データ混合に焦点を当てたBetterMixtureチャレンジのソリューションについて詳述する。
3位を確保した当社のアプローチには,データの重複,低レベルかつ高品質なフィルタリング,多様性の選択などが取り入れられている。
私たちのソリューションの基盤はKe-Data-Juicerで、大規模言語モデルのデータの処理と最適化における堅牢な能力を実証しています。
- 参考スコア(独自算出の注目度): 1.2482895582813895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of flourishing large-scale models, the challenge of selecting and optimizing datasets from the vast and complex sea of data, to enhance the performance of large language models within the constraints of limited computational resources, has become paramount. This paper details our solution for the BetterMixture challenge, which focuses on the fine-tuning data mixing for large language models. Our approach, which secured third place, incorporates data deduplication, low-level and high-level quality filtering, and diversity selection. The foundation of our solution is Ke-Data-Juicer, an extension of Data-Juicer, demonstrating its robust capabilities in handling and optimizing data for large language models.
- Abstract(参考訳): 大規模モデルの普及期には、限られた計算資源の制約の中で、大規模で複雑なデータからデータセットを選択し、最適化するという課題が最重要となっている。
本稿では、大規模言語モデルの微調整データ混合に焦点を当てたBetterMixtureチャレンジのソリューションについて詳述する。
3位を確保した当社のアプローチには,データの重複,低レベルかつ高品質なフィルタリング,多様性の選択などが取り入れられている。
私たちのソリューションの基盤は、Data-Juicerの拡張であるKe-Data-Juicerです。
関連論文リスト
- CURATRON: Complete Robust Preference Data for Robust Alignment of Large
Language Models [1.7849982327883962]
本稿では,大規模言語モデル(LLM)と人間の価値観を協調させる上での課題について,嗜好学習(PL)を用いて検討する。
そこで本研究では,これらのデータセット内での値の頑健かつ完全再検討を行う新しい手法を提案する。
我々のアルゴリズムは、一般と選好の両方のデータセット設定において、逆ノイズと観測されていない比較をうまく処理する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Survey on Data Augmentation in Large Model Era [16.05117556207015]
大きな言語と拡散モデルを含む大きなモデルは、人間レベルの知能を近似する上で非常に有望である。
これらのモデルへの継続的な更新により、既存の高品質なデータの貯水池はすぐに枯渇する可能性がある。
本稿では,大規模モデル駆動型データ拡張手法について概観する。
論文 参考訳(メタデータ) (2024-01-27T14:19:33Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases [5.5888763670915855]
本稿ではChatLawという,オープンソースの法的大規模言語モデルを提案する。
法的なデータスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を提案する。
また,参照データに存在する誤りを克服する大規模モデルの能力を高める自己認識手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T10:48:34Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。