論文の概要: ELTEX: A Framework for Domain-Driven Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2503.15055v1
- Date: Wed, 19 Mar 2025 09:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.921817
- Title: ELTEX: A Framework for Domain-Driven Synthetic Data Generation
- Title(参考訳): ELTEX: ドメイン駆動の合成データ生成フレームワーク
- Authors: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev,
- Abstract要約: 特殊なドメインで高品質な合成トレーニングデータを生成するためのフレームワークである ELTEX を提案する。
ブロックチェーン関連サイバー攻撃検出におけるELTEXの有効性を示す。
我々の研究は、ドメイン駆動の合成データ生成が、リソース効率の良いモデルと特定のドメインにおけるより大きなアーキテクチャの間の性能ギャップを効果的に橋渡しできることを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.
- Abstract(参考訳): ELTEX (Efficient LLM Token extract) は、特殊なドメインで高品質な合成トレーニングデータを生成するためのドメイン駆動フレームワークである。
大きな言語モデル(LLM)は目覚ましい汎用能力を示しているが、サイバーセキュリティのような専門分野のパフォーマンスは、ドメイン固有のトレーニングデータの不足によって制限されている。
ELTEXはこの課題に対処するため、明示的なドメインインジケータ抽出を動的プロンプトと体系的に統合し、生成プロセスを通じて重要なドメイン知識を保存する。
ブロックチェーン関連のサイバー攻撃検出において,ELTEXの有効性を実証し,実データとELTEX生成データの組み合わせを用いてGemma-2Bを微調整する。
以上の結果から, ELTEX強化モデルは標準分類基準と不確実性校正の両方でGPT-4と競合する性能を実現し, 計算資源は大幅に削減された。
ブロックチェーンにおけるサイバー攻撃検出のための、ソーシャルメディアテキストのキュレートされた合成データセットをリリースする。
我々の研究は、ドメイン駆動の合成データ生成が、リソース効率の良いモデルと特定のドメインにおけるより大きなアーキテクチャの間の性能ギャップを効果的に橋渡しできることを実証している。
関連論文リスト
- LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。
我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文 参考訳(メタデータ) (2025-04-29T21:42:59Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Data-Constrained Synthesis of Training Data for De-Identification [0.0]
臨床領域に適応する大言語モデル(LLM)について検討した。
我々は,個人識別可能な情報にタグを付加した人工的な臨床テキストを生成する。
合成コーパスは合成NERモデルの訓練に使用される。
論文 参考訳(メタデータ) (2025-02-20T16:09:27Z) - Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。
我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文 参考訳(メタデータ) (2024-12-22T13:16:28Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Archon: An Architecture Search Framework for Inference-Time Techniques [31.655124464284523]
Archonは推論時のテクニックのレイヤを選択し、組み合わせ、積み重ねるためのフレームワークである。
我々は,Archonアーキテクチャを,命令フォロー,推論,コーディングベンチマークの範囲で評価する。
論文 参考訳(メタデータ) (2024-09-23T17:53:42Z) - OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。
このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文 参考訳(メタデータ) (2024-07-23T07:22:25Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - On the Cross-Dataset Generalization of Machine Learning for Network
Intrusion Detection [50.38534263407915]
ネットワーク侵入検知システム(NIDS)はサイバーセキュリティの基本的なツールである。
多様なネットワークにまたがる一般化能力は、その有効性と現実のアプリケーションにとって必須の要素である。
本研究では,機械学習に基づくNIDSの一般化に関する包括的分析を行う。
論文 参考訳(メタデータ) (2024-02-15T14:39:58Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Generative adversarial networks for data-scarce spectral applications [0.0]
合成スペクトルデータ生成分野におけるGANの応用について報告する。
CWGANは,低データ方式の性能向上を図り,サロゲートモデルとして機能することを示す。
論文 参考訳(メタデータ) (2023-07-14T16:27:24Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - Gradient Backpropagation based Feature Attribution to Enable
Explainable-AI on the Edge [1.7338677787507768]
そこで本研究では,勾配バックプロパゲーションに基づく特徴属性アルゴリズムのデータフローを解析し,推論に要するリソースのオーバーヘッドを推定する。
我々は,エッジデバイスを対象とした高レベル合成(HLS)に基づくFPGA設計を開発し,3つの特徴帰属アルゴリズムをサポートする。
提案手法は,最小限のオーバーヘッドで特徴属性をサポートするために推論アクセラレータを再利用し,エッジ上でのリアルタイムXAIを実現する経路を示す。
論文 参考訳(メタデータ) (2022-10-19T22:58:59Z) - An Efficient Learning Framework For Federated XGBoost Using Secret
Sharing And Distributed Optimization [47.70500612425959]
XGBoostは、より優れた学習精度と効率のため、業界で最も広く使われている機械学習モデルの1つである。
ビッグデータ問題におけるデータ分離問題に対処するためには、セキュアで効率的なフェデレーションXGBoost(FedXGB)モデルをデプロイすることが重要です。
本稿では,xgboostの分割基準計算プロセスをシークレット共有設定で再構成するセキュリティ保証とともに,マルチパーティフェデレーションxgb学習フレームワークを提案する。
注目すべきは、モデルセキュリティの徹底的な分析も提供され、複数の数値結果が提案されたFedXGBの優位性を示しています。
論文 参考訳(メタデータ) (2021-05-12T15:04:18Z) - CorDEL: A Contrastive Deep Learning Approach for Entity Linkage [70.82533554253335]
エンティティリンケージ(EL)は、データのクリーニングと統合において重要な問題である。
新たなデータの増加に伴い、ディープラーニング(DL)ベースのアプローチが提案され、従来のモデルに付随するELの高コスト化が図られている。
我々は、ツインネットワークアーキテクチャはELに準最適であり、既存のモデルに固有の欠点をもたらすと主張している。
論文 参考訳(メタデータ) (2020-09-15T16:33:05Z) - Federated Transfer Learning for EEG Signal Classification [14.892851587424936]
脳波分類のためのFTL(Federated Transfer Learning)というプライバシー保護型ディープラーニングアーキテクチャを提案する。
FTLアプローチは、対象適応分析において2%高い分類精度を達成する。
マルチオブジェクトデータがない場合、我々のアーキテクチャは他の最先端のDLアーキテクチャと比較して6%精度が向上する。
論文 参考訳(メタデータ) (2020-04-26T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。