論文の概要: TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation
- arxiv url: http://arxiv.org/abs/2506.23979v1
- Date: Mon, 30 Jun 2025 15:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.137387
- Title: TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation
- Title(参考訳): TaP: 自動およびスケーラブルな参照データ生成のための分類ガイドフレームワーク
- Authors: Renren Jin, Tianhao Shen, Xinwei Wu, Dan Shi, Haoran Sun, Wuwei Huang, Quandong Wang, Wei Liu, Jian Luan, Bin Wang, Deyi Xiong,
- Abstract要約: 大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。
教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。
本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.319535974012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conducting supervised fine-tuning and preference fine-tuning on large language models (LLMs) requires high-quality datasets to improve their ability to follow instructions and align with human preferences and values. However, constructing such datasets is resource-intensive, and most available datasets for supervised and preference fine-tuning are in English. To address these challenges, we propose the \underline{\textbf{Ta}}xonomy-Guided \underline{\textbf{P}}reference Data Generation (TaP) framework, which facilitates automated and scalable construction of preference datasets across various languages. TaP is grounded in a structured taxonomy that allows fine-grained control over dataset composition, thereby ensuring both diversity and comprehensive coverage. We employ TaP-generated datasets to perform supervised and preference fine-tuning on various LLMs. Experimental results demonstrate that LLMs trained on TaP-generated datasets outperform those trained on existing open-source datasets. Remarkably, LLMs trained on TaP-generated datasets surpass the performance of those trained on an open-source dataset that is 180 times larger.
- Abstract(参考訳): 大規模言語モデル(LLM)上で教師付き微調整と選好の微調整を行うには、指示に従う能力を改善し、人間の選好や値に合わせるために高品質なデータセットが必要である。
しかし、そのようなデータセットの構築はリソース集約的であり、教師付きおよび好みの微調整のための最も利用可能なデータセットは英語である。
これらの課題に対処するため,さまざまな言語を対象とした選好データセットの自動構築を容易にする,Shaunderline{\textbf{Ta}}xonomy-Guided \underline{\textbf{P}}参照データ生成(TaP)フレームワークを提案する。
TaPは、データセット構成のきめ細かい制御を可能にし、多様性と包括的カバレッジの両面を保証できる構造化分類に基盤を置いている。
各種LLMの教師と選好の微調整を行うために,TaP生成データセットを用いる。
実験により、TaP生成データセットでトレーニングされたLLMが、既存のオープンソースデータセットでトレーニングされたデータセットよりも優れていることが示された。
注目すべきは、TaP生成データセットでトレーニングされたLLMが、180倍のオープンソースのデータセットでトレーニングされたデータセットのパフォーマンスを上回ることだ。
関連論文リスト
- Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [29.813758537374795]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。
データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。
データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文 参考訳(メタデータ) (2025-02-19T11:44:27Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Fine-Tuning Language Models on Multiple Datasets for Citation Intention Classification [17.03832781104098]
引用意図分類(Citation intention Classification, CIC)は、意図によって引用を分類するツールである。
以前の研究では、事前訓練された言語モデル(PLM)がCICベンチマークで最先端のパフォーマンスを達成できることが示されている。
複数の補助的CICデータセットとともに、一次関心のデータセット上でPLMを微調整するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:45:02Z) - Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets [38.867815476721894]
ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデルパフォーマンスが制限されている。
多言語IFTデータセットを作成する従来の方法は、言語的ニュアンスを捕捉し、迅速な(指示)多様性を確保するのに苦労している。
本稿では,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T23:47:09Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Generating Datasets with Pretrained Language Models [12.919486518128734]
ラベル付きデータや微調整や事前学習目的の変更を必要とせずに,大規模言語モデルを用いて高品質な埋め込みを実現する方法を示す。
PLMの生成能力を利用して、ラベル付きテキストペアの全データセットをゼロから生成し、より小さなモデルの定期的な微調整に使用できます。
論文 参考訳(メタデータ) (2021-04-15T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。