論文の概要: Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning
- arxiv url: http://arxiv.org/abs/2605.30039v1
- Date: Thu, 28 May 2026 14:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.407936
- Title: Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning
- Title(参考訳): 最小表現学習によるLLMのためのドメイン特化データ合成
- Authors: Tong Ye, Hang Yu, Tengfei Ma, Xuhong Zhang, Jianguo Li, Peng Di, Peiyu Liu, Jianwei Yin, Wenhai Wang,
- Abstract要約: 大規模言語モデルは、ドメイン固有のデータを微調整することで、特定のドメインで強力なパフォーマンスを達成することができる。
既存のデータ合成アプローチは、自然言語で表現された明示的なドメイン記述と慎重にプロンプトエンジニアリングに依存している。
本稿では、参照サンプルから最小限のドメイン表現を学習し、それを活用してドメイン整合合成データの生成を誘導する新しいフレームワークDOMINOを提案する。
- 参考スコア(独自算出の注目度): 72.60775633696593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.
- Abstract(参考訳): 大規模言語モデルは汎用能力において顕著な進歩を示しており、ドメイン固有のデータを微調整することで、特定のドメインで強力なパフォーマンスを達成することができる。
しかし、ターゲットドメインの高品質なデータを取得することは依然として大きな課題である。
既存のデータ合成アプローチは、自然言語で表現された明示的なドメイン記述と注意深いプロンプトエンジニアリングに強く依存し、ドメインの記述や形式的な記述が難しい現実のシナリオにおける適用性を制限している。
そこで本研究では,対象領域を参照例の集合でのみ定義する帰納的パラダイムを用いて,ドメイン固有のデータ合成の未探索問題に取り組み,特に自然言語でのドメイン特性の明瞭化が難しい場合に対処する。
本稿では、参照サンプルから最小限のドメイン表現を学習し、それを活用してドメイン整合合成データの生成を誘導する新しいフレームワークDOMINOを提案する。
DOMINOは、プロンプトチューニングと対照的なアンタングルメントの目的を統合し、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメイン特性を保持しながらオーバーフィッティングを緩和する。
理論的には、DOMINOが合成データ配信のサポートを拡大し、より多様性を確保できることを示す。
実証的なことに、ドメイン定義が暗黙的なコーディングベンチマークでは、DOMINOによって合成されたデータの微調整により、強い命令で調整されたバックボーンよりも最大4.63倍の精度でPass@1が向上し、その有効性と堅牢性を示している。
この研究は、ドメイン固有のデータ合成の新しいパラダイムを確立し、手動のプロンプト設計や自然言語のドメイン仕様を使わずに実用的でスケーラブルなドメイン適応を可能にする。
関連論文リスト
- Understanding Cross-Domain Adaptation in Low-Resource Topic Modeling [25.915607750636333]
我々は、低リソースのトピックモデリングにドメイン適応を導入し、高リソースのソースドメインが低リソースのターゲットドメインに無関係なコンテンツで圧倒することなく通知する。
DALTAは、ドメイン不変の機能に共有エンコーダ、ドメイン固有ニュアンスに特化されたデコーダ、関連する情報を選択的に転送するための逆アライメントを利用する新しいフレームワークである。
多様な低リソースデータセットの実験により、DALTAはトピックコヒーレンス、安定性、転送可能性の観点から、最先端の手法を一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-06-09T05:59:18Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation [6.3823202275924125]
本稿では,対象領域によらずデータセットを生成する普遍的領域一般化に対する新しいアプローチを提案する。
提案手法は, PLM よりも桁違いの小さいパラメータ集合を用いて, 各領域にまたがる一般化性を実現する。
論文 参考訳(メタデータ) (2024-05-02T05:46:13Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。