Fugu-MT 論文翻訳(概要): Conformalised data synthesis with statistical quality guarantees

論文の概要: Conformalised data synthesis with statistical quality guarantees

arxiv url: http://arxiv.org/abs/2312.08999v1
Date: Thu, 14 Dec 2023 14:44:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 21:37:31.072065
Title: Conformalised data synthesis with statistical quality guarantees
Title（参考訳）: 統計的品質保証による共形データ合成
Authors: Julia A. Meister, Khuong An Nguyen
Abstract要約: データ合成は、データハングリーモデルの需要に対応するための有望な技術である。しかし、「合成器」モデルの出力の品質を確実に評価することは、オープンな研究課題である。我々は統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the proliferation of ever more complicated Deep Learning architectures, data synthesis is a highly promising technique to address the demand of data-hungry models. However, reliably assessing the quality of a 'synthesiser' model's output is an open research question with significant associated risks for high-stake domains. To address this challenge, we have designed a unique confident data synthesis algorithm that introduces statistical confidence guarantees through a novel extension of the Conformal Prediction framework. We support our proposed algorithm with theoretical proofs and an extensive empirical evaluation of five benchmark datasets. To show our approach's versatility on ubiquitous real-world challenges, the datasets were carefully selected for their variety of difficult characteristics: low sample count, class imbalance and non-separability, and privacy-sensitive data. In all trials, training sets extended with our confident synthesised data performed at least as well as the original, and frequently significantly improved Deep Learning performance by up to +65% F1-score.
Abstract（参考訳）: より複雑なディープラーニングアーキテクチャの普及に伴い、データ合成はデータハングリーモデルの需要に対処するための非常に有望な技術である。しかし、「合成器」モデルの出力の質を確実に評価することは、高リスク領域に対する重大なリスクを伴うオープンな研究課題である。この課題に対処するために,コンフォーマル予測フレームワークの新たな拡張により,統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。提案アルゴリズムは理論的証明と5つのベンチマークデータセットの広範な実験的評価により支援する。ユビキタスな実世界の課題に対する我々のアプローチの汎用性を示すために、データセットは、サンプル数、クラス不均衡、非分離性、プライバシに敏感なデータといった、さまざまな難しい特性のために慎重に選択されました。すべての試験では、自信ある合成データによってトレーニングセットが拡張され、少なくともオリジナルのデータと同様に実行され、Deep Learningのパフォーマンスが最大で65%向上しました。

関連論文リスト

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文参考訳（メタデータ） (2025-05-22T16:05:02Z)
Robust Federated Learning with Confidence-Weighted Filtering and GAN-Based Completion under Noisy and Incomplete Data [0.0]
フェデレートラーニング(FL)は、分散化されたクライアントデータセット間のデータのプライバシを維持しながら、協調的なモデルトレーニングのための効果的なソリューションを提供する。本研究では,ノイズやクラス不均衡,ラベルの欠落など,データ品質問題に体系的に対処するフェデレート学習手法を提案する。以上の結果から,この手法はデータ品質の課題を効果的に軽減し,堅牢でスケーラブルでプライバシに適合したソリューションを提供することが示唆された。
論文参考訳（メタデータ） (2025-05-14T18:49:18Z)
MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文参考訳（メタデータ） (2025-03-12T16:03:03Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文参考訳（メタデータ） (2024-04-11T06:34:17Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
The Risk of Federated Learning to Skew Fine-Tuning Features and Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。 3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文参考訳（メタデータ） (2024-01-25T09:18:51Z)
Synthetic Information towards Maximum Posterior Ratio for deep learning on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。実験結果から,提案手法の優れた性能を実証した。
論文参考訳（メタデータ） (2024-01-05T01:08:26Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文参考訳（メタデータ） (2023-10-11T15:21:40Z)
Statistical properties and privacy guarantees of an original distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文参考訳（メタデータ） (2023-10-10T12:29:57Z)
Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文参考訳（メタデータ） (2023-05-30T01:01:36Z)
Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。両手法の有効性とロバスト性を実証的に示す。我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文参考訳（メタデータ） (2022-05-12T17:03:57Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文参考訳（メタデータ） (2021-04-01T17:30:23Z)
Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文参考訳（メタデータ） (2020-11-16T21:49:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。