論文の概要: FlexiDataGen: An Adaptive LLM Framework for Dynamic Semantic Dataset Generation in Sensitive Domains
- arxiv url: http://arxiv.org/abs/2510.19025v1
- Date: Tue, 21 Oct 2025 19:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.528042
- Title: FlexiDataGen: An Adaptive LLM Framework for Dynamic Semantic Dataset Generation in Sensitive Domains
- Title(参考訳): FlexiDataGen: 感性ドメインにおける動的セマンティックデータセット生成のための適応型LLMフレームワーク
- Authors: Hamed Jelodar, Samita Bai, Roozbeh Razavi-Far, Ali A. Ghorbani,
- Abstract要約: FlexiDataGenは適応型大規模言語モデル(LLM)フレームワークで、センシティブなドメインで動的セマンティックなセマンティックなデータセットを生成するために設計されている。
専門分野に合わせて、豊かでセマンティックな一貫性があり、言語的に多様なデータセットを自律的に合成する。
FlexiDataGenはデータ不足やアノテーションのボトルネックを効果的に軽減し、スケーラブルで正確な機械学習モデル開発を可能にします。
- 参考スコア(独自算出の注目度): 5.062812514858075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset availability and quality remain critical challenges in machine learning, especially in domains where data are scarce, expensive to acquire, or constrained by privacy regulations. Fields such as healthcare, biomedical research, and cybersecurity frequently encounter high data acquisition costs, limited access to annotated data, and the rarity or sensitivity of key events. These issues-collectively referred to as the dataset challenge-hinder the development of accurate and generalizable machine learning models in such high-stakes domains. To address this, we introduce FlexiDataGen, an adaptive large language model (LLM) framework designed for dynamic semantic dataset generation in sensitive domains. FlexiDataGen autonomously synthesizes rich, semantically coherent, and linguistically diverse datasets tailored to specialized fields. The framework integrates four core components: (1) syntactic-semantic analysis, (2) retrieval-augmented generation, (3) dynamic element injection, and (4) iterative paraphrasing with semantic validation. Together, these components ensure the generation of high-quality, domain-relevant data. Experimental results show that FlexiDataGen effectively alleviates data shortages and annotation bottlenecks, enabling scalable and accurate machine learning model development.
- Abstract(参考訳): データセットの可用性と品質は、特にデータの不足、取得コストの低い、あるいはプライバシ規制に制約された領域において、マシンラーニングにおいて依然として重要な課題である。
医療、バイオメディカルリサーチ、サイバーセキュリティなどの分野は、しばしば高いデータ取得コスト、注釈付きデータへのアクセス制限、重要なイベントの希少性や感度に直面する。
これらの課題は、データセットチャレンジと呼ばれるもので、そのような高い領域における正確で一般化可能な機械学習モデルの開発を妨げている。
この問題に対処するため、我々は、センシティブドメインにおける動的セマンティックデータセット生成用に設計された適応型大規模言語モデル(LLM)フレームワークであるFlexiDataGenを紹介した。
FlexiDataGenは、専門分野に適したリッチでセマンティックな一貫性があり、言語的に多様なデータセットを自律的に合成する。
このフレームワークは,(1)構文・意味解析,(2)検索・拡張生成,(3)動的要素注入,(4)意味的検証を伴う反復的パラフレージングの4つのコアコンポーネントを統合している。
これらのコンポーネントは共に、高品質なドメイン関連データの生成を保証する。
実験の結果、FlexiDataGenはデータ不足やアノテーションのボトルネックを効果的に軽減し、スケーラブルで正確な機械学習モデル開発を可能にします。
関連論文リスト
- DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。