論文の概要: Synthetic Data and the Shifting Ground of Truth
- arxiv url: http://arxiv.org/abs/2509.13355v1
- Date: Sun, 14 Sep 2025 14:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.551471
- Title: Synthetic Data and the Shifting Ground of Truth
- Title(参考訳): 合成データと真実のシフトグラウンド
- Authors: Dietmar Offenhuber,
- Abstract要約: 本稿では,ML研究者や実践者が,表現の安定と実世界の参照に頼ることなく,真実をブートストラップする方法について検討する。
これはまた、表現から、模倣的あるいは象徴的なデータの概念として記述できるものへのシフトの広範な意味を反映する。
- 参考スコア(独自算出の注目度): 3.4858077573471107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of synthetic data for privacy protection, training data generation, or simply convenient access to quasi-realistic data in any shape or volume complicates the concept of ground truth. Synthetic data mimic real-world observations, but do not refer to external features. This lack of a representational relationship, however, not prevent researchers from using synthetic data as training data for AI models and ground truth repositories. It is claimed that the lack of data realism is not merely an acceptable tradeoff, but often leads to better model performance than realistic data: compensate for known biases, prevent overfitting and support generalization, and make the models more robust in dealing with unexpected outliers. Indeed, injecting noisy and outright implausible data into training sets can be beneficial for the model. This greatly complicates usual assumptions based on which representational accuracy determines data fidelity (garbage in - garbage out). Furthermore, ground truth becomes a self-referential affair, in which the labels used as a ground truth repository are themselves synthetic products of a generative model and as such not connected to real-world observations. My paper examines how ML researchers and practitioners bootstrap ground truth under such paradoxical circumstances without relying on the stable ground of representation and real-world reference. It will also reflect on the broader implications of a shift from a representational to what could be described as a mimetic or iconic concept of data.
- Abstract(参考訳): プライバシ保護やトレーニングデータ生成のための合成データの出現、あるいは任意の形状やボリュームの準現実データへの便利なアクセスは、基底真理の概念を複雑にしている。
合成データは現実世界の観測を模倣するが、外部の特徴には言及しない。
しかし、この表現関係の欠如は、研究者がAIモデルと地上真実リポジトリのトレーニングデータとして合成データを使用することを妨げない。
データリアリズムの欠如は単に受け入れられるトレードオフであるだけでなく、しばしば現実的なデータよりも優れたモデルパフォーマンスをもたらす。
実際、トレーニングセットにノイズと完全に不明瞭なデータを注入することは、モデルにとって有益である。
これは、どの表現精度がデータの忠実度を決定するか(ガベージイン - ガベージアウト)に基づいて、通常の仮定を非常に複雑にします。
さらに、基底真理は自己参照的な問題となり、基底真理保存として使われるラベルは、それ自体が生成モデルの合成産物であり、現実世界の観測とは関係がない。
本稿では,MLの研究者や実践者が,このようなパラドックス的な状況下で,表現の安定と実世界の参照に頼ることなく,真実をブートストラップする方法について検討する。
これはまた、表現から、模倣的あるいは象徴的なデータの概念として記述できるものへのシフトの広範な意味を反映する。
関連論文リスト
- Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - The Comparability of Model Fusion to Measured Data in Confuser Rejection [0.24578723416255746]
ライブ使用で見られるわずかな偏差を考慮に入れたデータセットは存在しない。
3次元モデル上で合成SARデータを生成するために, シューティング・バウンシング・レイ法を利用したシミュレータが開発されている。
我々は,この品質測定データの欠如に代えて,合成データに基づいて訓練された多くのモデルを統合することを目的としている。
論文 参考訳(メタデータ) (2025-05-01T19:51:30Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。