論文の概要: FlexiDataGen: An Adaptive LLM Framework for Dynamic Semantic Dataset Generation in Sensitive Domains
- arxiv url: http://arxiv.org/abs/2510.19025v1
- Date: Tue, 21 Oct 2025 19:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.528042
- Title: FlexiDataGen: An Adaptive LLM Framework for Dynamic Semantic Dataset Generation in Sensitive Domains
- Title(参考訳): FlexiDataGen: 感性ドメインにおける動的セマンティックデータセット生成のための適応型LLMフレームワーク
- Authors: Hamed Jelodar, Samita Bai, Roozbeh Razavi-Far, Ali A. Ghorbani,
- Abstract要約: FlexiDataGenは適応型大規模言語モデル(LLM)フレームワークで、センシティブなドメインで動的セマンティックなセマンティックなデータセットを生成するために設計されている。
専門分野に合わせて、豊かでセマンティックな一貫性があり、言語的に多様なデータセットを自律的に合成する。
FlexiDataGenはデータ不足やアノテーションのボトルネックを効果的に軽減し、スケーラブルで正確な機械学習モデル開発を可能にします。
- 参考スコア(独自算出の注目度): 5.062812514858075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset availability and quality remain critical challenges in machine learning, especially in domains where data are scarce, expensive to acquire, or constrained by privacy regulations. Fields such as healthcare, biomedical research, and cybersecurity frequently encounter high data acquisition costs, limited access to annotated data, and the rarity or sensitivity of key events. These issues-collectively referred to as the dataset challenge-hinder the development of accurate and generalizable machine learning models in such high-stakes domains. To address this, we introduce FlexiDataGen, an adaptive large language model (LLM) framework designed for dynamic semantic dataset generation in sensitive domains. FlexiDataGen autonomously synthesizes rich, semantically coherent, and linguistically diverse datasets tailored to specialized fields. The framework integrates four core components: (1) syntactic-semantic analysis, (2) retrieval-augmented generation, (3) dynamic element injection, and (4) iterative paraphrasing with semantic validation. Together, these components ensure the generation of high-quality, domain-relevant data. Experimental results show that FlexiDataGen effectively alleviates data shortages and annotation bottlenecks, enabling scalable and accurate machine learning model development.
- Abstract(参考訳): データセットの可用性と品質は、特にデータの不足、取得コストの低い、あるいはプライバシ規制に制約された領域において、マシンラーニングにおいて依然として重要な課題である。
医療、バイオメディカルリサーチ、サイバーセキュリティなどの分野は、しばしば高いデータ取得コスト、注釈付きデータへのアクセス制限、重要なイベントの希少性や感度に直面する。
これらの課題は、データセットチャレンジと呼ばれるもので、そのような高い領域における正確で一般化可能な機械学習モデルの開発を妨げている。
この問題に対処するため、我々は、センシティブドメインにおける動的セマンティックデータセット生成用に設計された適応型大規模言語モデル(LLM)フレームワークであるFlexiDataGenを紹介した。
FlexiDataGenは、専門分野に適したリッチでセマンティックな一貫性があり、言語的に多様なデータセットを自律的に合成する。
このフレームワークは,(1)構文・意味解析,(2)検索・拡張生成,(3)動的要素注入,(4)意味的検証を伴う反復的パラフレージングの4つのコアコンポーネントを統合している。
これらのコンポーネントは共に、高品質なドメイン関連データの生成を保証する。
実験の結果、FlexiDataGenはデータ不足やアノテーションのボトルネックを効果的に軽減し、スケーラブルで正確な機械学習モデル開発を可能にします。
関連論文リスト
- Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - Empowering Federated Learning for Massive Models with NVIDIA FLARE [15.732926323081077]
データを効果的に扱い 活用することが 重要な課題となりました
ほとんどの最先端の機械学習アルゴリズムはデータ中心である。
本稿では,NVIDIA FLAREによって実現されたフェデレーション学習が,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2024-02-12T16:59:05Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery [1.0036312061637764]
機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
論文 参考訳(メタデータ) (2021-11-02T21:43:58Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。