論文の概要: Reducing Instability in Synthetic Data Evaluation with a Super-Metric in MalDataGen
- arxiv url: http://arxiv.org/abs/2511.16373v1
- Date: Thu, 20 Nov 2025 13:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.654323
- Title: Reducing Instability in Synthetic Data Evaluation with a Super-Metric in MalDataGen
- Title(参考訳): MalDataGenにおける超音速合成データ評価の不安定性の低減
- Authors: Anna Luiza Gomes da Silva, Diego Kreutz, Angelo Diniz, Rodrigo Mansilha, Celso Nobre da Fonseca,
- Abstract要約: この研究は、4つの忠実度次元に8つのメトリクスを集約し、1つの重み付けスコアを生成するMalDataGenのSuper-Metricに統合される。
10の生成モデルと5つのバランスの取れたデータセットを含む実験は、Super-Metricが従来のメトリクスよりも安定して一貫性があることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of synthetic data remains a persistent challenge in the Android malware domain due to instability and the lack of standardization among existing metrics. This work integrates into MalDataGen a Super-Metric that aggregates eight metrics across four fidelity dimensions, producing a single weighted score. Experiments involving ten generative models and five balanced datasets demonstrate that the Super-Metric is more stable and consistent than traditional metrics, exhibiting stronger correlations with the actual performance of classifiers.
- Abstract(参考訳): 合成データの質を評価することは、不安定さと既存のメトリクスの標準化の欠如により、Androidのマルウェア領域では依然として永続的な課題である。
この研究は、4つの忠実度次元に8つのメトリクスを集約し、1つの重み付けスコアを生成するMalDataGenのSuper-Metricに統合される。
10つの生成モデルと5つのバランスの取れたデータセットを含む実験は、スーパーメトリックが従来のメトリクスよりも安定で一貫性があり、分類器の実際の性能と強い相関関係を示すことを示した。
関連論文リスト
- SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation [3.2150327776278576]
本稿では,オブジェクト検出タスクのデータ品質を評価するために,Synthetic dataset Quality Metric (SDQM)を提案する。
実験の結果,SDQMは,主物体検出モデルYOLOv11の平均精度 (mAP) と強い相関を示した。
データセットの品質向上のための実用的な洞察を提供し、コストのかかる反復的なトレーニングの必要性を最小限にする。
論文 参考訳(メタデータ) (2025-10-08T03:01:26Z) - Assessment of Using Synthetic Data in Brain Tumor Segmentation [0.3222802562733786]
本研究では,プリトレーニングGANモデルを用いて生成した合成MRIデータをU-Netセグメンテーションネットワークに組み込むことが,概念実証として,U-Netセグメンテーションネットワークのトレーニングに与える影響について検討する。
BraTS 2020データセットの実際のデータ、メディガンライブラリで生成された合成データ、および実際のサンプルと合成サンプルを様々な割合で組み合わせたハイブリッドデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2025-08-16T05:56:38Z) - Position: All Current Generative Fidelity and Diversity Metrics are Flawed [58.815519650465774]
現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
論文 参考訳(メタデータ) (2025-05-28T15:10:33Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Generation of synthetic gait data: application to multiple sclerosis patients' gait patterns [0.0]
多発性硬化症(Multiple sclerosis, MS)は、若年者における非外傷性障害の主要な原因であり、その頻度は世界中で増加している。
MSにおける歩行障害の変動は、定量的歩行評価のための非侵襲的で敏感で費用対効果の高いツールの開発を必要とする。
eGait運動センサは、股関節回転を表す単位四元数時系列(QTS)を通して人間の歩行を特徴付けるように設計されており、有望なアプローチである。
しかし、臨床研究に典型的な小さなサンプルサイズは、歩行データ解析ツールの安定性に課題をもたらす。
論文 参考訳(メタデータ) (2024-11-15T17:32:01Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。