論文の概要: DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning
- arxiv url: http://arxiv.org/abs/2603.12932v2
- Date: Mon, 16 Mar 2026 01:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 13:51:29.066375
- Title: DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning
- Title(参考訳): DS$^2$-インストラクション:大規模言語モデルインストラクションチューニングのためのドメイン特化データ合成
- Authors: Ruiyao Xu, Noelle I. Samia, Han Liu,
- Abstract要約: DS$2$-Instructは、人間の監督なしにドメイン固有の命令データセットを生成するフレームワークである。
このフレームワークを適用して、数学、金融学、論理的推論といった7つの挑戦的な領域にまたがるデータセットを生成する。
- 参考スコア(独自算出の注目度): 7.350888490884606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting Large Language Models (LLMs) to specialized domains requires high-quality instruction tuning datasets, which are expensive to create through human annotation. Existing data synthesis methods focus on general-purpose tasks and fail to capture domain-specific terminology and reasoning patterns. To address this, we introduce DS$^2$-Instruct, a zero-shot framework that generates domain-specific instruction datasets without human supervision. Our approach first generates task-informed keywords to ensure comprehensive domain coverage. It then creates diverse instructions by pairing these keywords with different cognitive levels from Bloom's Taxonomy. Finally, it uses self-consistency validation to ensure data quality. We apply this framework to generate datasets across seven challenging domains, such as mathematics, finance, and logical reasoning. Comprehensive evaluation demonstrates that models fine-tuned on our generated data achieve substantial improvements over existing data generation methods.
- Abstract(参考訳): LLM(Large Language Models)を特殊なドメインに適応させるには、人間のアノテーションによって作成する費用がかかる高品質な命令チューニングデータセットが必要である。
既存のデータ合成手法は汎用的なタスクに重点を置いており、ドメイン固有の用語や推論パターンを捉えていない。
これを解決するために,DS$^2$-Instructという,ドメイン固有の命令データセットを生成するゼロショットフレームワークを紹介した。
提案手法は、まずタスクインフォームドキーワードを生成し、包括的なドメインカバレッジを保証する。
次に、これらのキーワードをブルームの分類学とは異なる認知レベルと組み合わせることで、多様な指示を生成する。
最後に、データ品質を保証するために自己整合性検証を使用する。
このフレームワークを適用して、数学、金融学、論理的推論といった7つの挑戦的な領域にまたがるデータセットを生成する。
包括的評価は、既存のデータ生成手法よりも大幅に改善されていることを示す。
関連論文リスト
- Scaling Towards the Information Boundary of Instruction Set: InfinityInstruct-Subject Technical Report [11.70656700216213]
高品質な命令データセットの構築は、モデル性能と一般化可能性の向上に不可欠である。
本稿では,階層的ラベリングシステム,情報的種選択アルゴリズム,モデル欠損診断を統合した系統的命令データ合成フレームワークを提案する。
本稿では,150万の命令を含む高品質なデータセットであるInfinityInstruct-Subjectを構築した。
論文 参考訳(メタデータ) (2025-07-09T15:59:02Z) - Organize the Web: Constructing Domains Enhances Pre-Training Data Curation [129.27104172458363]
トピックとフォーマットの両面からWebページを整理するフレームワークを開発する。
我々は,大規模な言語モデルからアノテーションを抽出して,事前学習データを自動的にアノテートし,効率的なキュレーションを行う。
我々の研究は、ドメインの構築と混合が、品質ベースのデータキュレーション手法の貴重な補完となることを実証している。
論文 参考訳(メタデータ) (2025-02-14T18:02:37Z) - $\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。
例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文 参考訳(メタデータ) (2024-10-07T03:15:11Z) - A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。