論文の概要: LM-mixup: Text Data Augmentation via Language Model based Mixup
- arxiv url: http://arxiv.org/abs/2510.20449v1
- Date: Thu, 23 Oct 2025 11:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.830757
- Title: LM-mixup: Text Data Augmentation via Language Model based Mixup
- Title(参考訳): LM-mixup:言語モデルに基づくMixupによるテキストデータ拡張
- Authors: Zhijie Deng, Zhouan Shen, Ling Li, Yao Zhou, Zhaowei Zhu, Yanji He, Wei Wang, Jiaheng Wei,
- Abstract要約: 大規模言語モデル(LLM)の整合化には,インストラクションチューニングが不可欠である
高品質なデータが最重要である一方で、しばしば不足しており、逆に、豊富な低品質のデータはしばしば破棄される。
LM-Mixupは、まずMIXTURE上で教師付き微調整を行い、次に強化学習で最適化する。
我々は、LM-Mixupが不完全なデータセットを効果的に増やすことを実証した。
- 参考スコア(独自算出の注目度): 32.03418172361991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is crucial for aligning Large Language Models (LLMs), yet the quality of instruction-following data varies significantly. While high-quality data is paramount, it is often scarce; conversely, abundant low-quality data is frequently discarded, leading to substantial information loss. Existing data augmentation methods struggle to augment this low-quality data effectively, and the evaluation of such techniques remains poorly defined. To address this, we formally define the task of Instruction Distillation: distilling multiple low-quality and redundant inputs into high-quality and coherent instruction-output pairs. Specifically, we introduce a comprehensive data construction pipeline to create MIXTURE, a 144K-sample dataset pairing low-quality or semantically redundant imperfect instruction clusters with their high-quality distillations. We then introduce LM-Mixup, by first performing supervised fine-tuning on MIXTURE and then optimizing it with reinforcement learning. This process uses three complementary reward signals: quality, semantic alignment, and format compliance, via Group Relative Policy Optimization (GRPO). We demonstrate that LM-Mixup effectively augments imperfect datasets: fine-tuning LLMs on its distilled data, which accounts for only about 3% of the entire dataset, not only surpasses full-dataset training but also competes with state-of-the-art high-quality data selection methods across multiple benchmarks. Our work establishes that low-quality data is a valuable resource when properly distilled and augmented with LM-Mixup, significantly enhancing the efficiency and performance of instruction-tuned LLMs.
- Abstract(参考訳): インストラクションチューニングはLarge Language Models (LLM) の整列に不可欠であるが、命令追従データの品質は著しく異なる。
逆に、豊富な低品質のデータはしばしば破棄され、かなりの情報を失う。
既存のデータ拡張手法は、この低品質データを効果的に増大させるのに苦労しており、そのような手法の評価は未定義のままである。
そこで我々は,複数の低品質かつ冗長な入力を高品質で一貫性のある命令出力ペアに蒸留する,インストラクション蒸留の課題を正式に定義する。
具体的には、低品質または意味的に冗長な命令クラスタと高品質な蒸留を組み合わせた144KサンプルデータセットであるMIXTUREを作成するための包括的データ構築パイプラインを導入する。
次に、まずMIXTUREの教師付き微調整を行い、強化学習で最適化することで、LM-Mixupを導入する。
このプロセスは、グループ相対ポリシー最適化(GRPO)を介して、品質、セマンティックアライメント、フォーマットコンプライアンスの3つの補完的な報酬信号を使用する。
我々は、LM-Mixupが不完全なデータセットを効果的に増やすことを実証した: 蒸留データに対する微調整 LLMは全データセットの約3%を占めるだけでなく、複数のベンチマークで最先端の高品質なデータ選択手法と競合する。
本研究は, LM-Mixupを適度に蒸留・拡張した場合の低品質データは貴重な資源であり, 命令調整LDMの効率と性能を著しく向上させるものであることを実証する。
関連論文リスト
- Transferable text data distillation by trajectory matching [27.826518926355295]
データ蒸留法は、少数のデータサンプルを合成し、全データセットのトレーニング効果を達成することを目的としている。
本研究では,軌道マッチングに基づいて擬似的プロンプトデータを学習する手法を提案する。
ARC-Easy と MMLU の命令チューニングデータセットを含む2つのベンチマークによる評価により,SOTA データ選択手法 LESS よりも蒸留法の方が優れていることを確認した。
論文 参考訳(メタデータ) (2025-04-14T02:39:26Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。
ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。
我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:14:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。