Fugu-MT 論文翻訳(概要): Foundations of Bayesian Learning from Synthetic Data

論文の概要: Foundations of Bayesian Learning from Synthetic Data

arxiv url: http://arxiv.org/abs/2011.08299v2
Date: Tue, 24 Nov 2020 15:01:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 23:56:25.645188
Title: Foundations of Bayesian Learning from Synthetic Data
Title（参考訳）: 合成データによるベイズ学習の基礎
Authors: Harrison Wilde, Jack Jewson, Sebastian Vollmer and Chris Holmes
Abstract要約: 我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
参考スコア（独自算出の注目度）: 1.6249267147413522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is significant growth and interest in the use of synthetic data as an enabler for machine learning in environments where the release of real data is restricted due to privacy or availability constraints. Despite a large number of methods for synthetic data generation, there are comparatively few results on the statistical properties of models learnt on synthetic data, and fewer still for situations where a researcher wishes to augment real data with another party's synthesised data. We use a Bayesian paradigm to characterise the updating of model parameters when learning in these settings, demonstrating that caution should be taken when applying conventional learning algorithms without appropriate consideration of the synthetic data generating process and learning task. Recent results from general Bayesian updating support a novel and robust approach to Bayesian synthetic-learning founded on decision theory that outperforms standard approaches across repeated experiments on supervised learning and inference problems.
Abstract（参考訳）: プライバシや可用性の制約によって実際のデータのリリースが制限されている環境では、マシンラーニングのイネーブラとして合成データを使用することに対する大きな成長と関心がある。合成データ生成のための手法は数多く存在するが、合成データから学習したモデルの統計特性に関する結果が比較的少なく、研究者が実データを他の人の合成データで補強したい場合も少ない。ベイズ型パラダイムを用いて, 学習時のモデルパラメータの更新を特徴付け, 合成データ生成過程や学習タスクを適切に考慮せずに従来の学習アルゴリズムを適用する場合, 注意が必要であることを示す。 general bayesian updatesによる最近の結果は、教師付き学習と推論問題の繰り返し実験で標準アプローチを上回る決定理論に基づくベイズ合成学習への新規でロバストなアプローチをサポートする。

関連論文リスト

Harnessing Synthetic Data from Generative AI for Statistical Inference [6.0353292419288485]
本稿では, 統計学的観点から, 合成データ生成と利用の現況を概観する。我々は,近代的な生成モデルの主要なクラス,それらのユースケース,およびそれらが提供するメリットについて調査する。合成データを実観測用サロゲートとして処理した場合に発生する一般的な落とし穴について検討する。
論文参考訳（メタデータ） (2026-03-05T17:24:41Z)
Using Synthetic Data to estimate the True Error is theoretically and practically doable [2.2307507245827685]
本研究では,限られたラベル付きデータ条件下での学習モデルの試験誤差を推定するために,合成データを用いて検討する。そこで本研究では,モデル評価のための最適化された合成データを生成するための理論的基礎的手法を提案する。
論文参考訳（メタデータ） (2025-11-02T15:00:12Z)
Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
Generative Models for Synthetic Data: Transforming Data Mining in the GenAI Era [49.46005489386284]
このチュートリアルでは、合成データ生成の基礎と最新の進歩を紹介する。 Atendeesは、生成的合成データを活用してデータマイニングの研究と実践を強化する、実用的な洞察を得る。
論文参考訳（メタデータ） (2025-08-27T05:04:07Z)
Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2025-08-08T18:32:52Z)
An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文参考訳（メタデータ） (2025-03-28T06:18:15Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文参考訳（メタデータ） (2025-03-07T21:47:11Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文参考訳（メタデータ） (2024-04-11T06:34:17Z)
The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文参考訳（メタデータ） (2023-12-13T02:04:41Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。データ拡張の可能性や構造化品種の導入など、その利点を強調します。テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文参考訳（メタデータ） (2023-10-11T19:16:09Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (2023-04-07T16:38:40Z)
Comparing Synthetic Tabular Data Generation Between a Probabilistic Model and a Deep Learning Model for Education Use Cases [12.358921226358133]
合成データを生成する能力は、さまざまなドメインにまたがってさまざまなユースケースを持つ。教育研究においては、特定の概念やアイデアをテストするために合成データにアクセスする必要性が高まっている。
論文参考訳（メタデータ） (2022-10-16T13:21:23Z)
Investigating Bias with a Synthetic Data Generator: Empirical Evidence and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。リスクは、データに埋め込まれたバイアスを体系的に広めることである。本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文参考訳（メタデータ） (2022-09-13T11:18:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。