論文の概要: Foundation Priors
- arxiv url: http://arxiv.org/abs/2512.01107v1
- Date: Sun, 30 Nov 2025 22:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.587596
- Title: Foundation Priors
- Title(参考訳): 財団の前身
- Authors: Sanjog Misra,
- Abstract要約: 合成データは、モデルの学習パターンとユーザの主観的事前、期待、バイアスの両方を反映する。
本稿では, 合成データと関連する基礎が, 標準統計・計量学にどのように組み入れられるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models, and in particular large language models, can generate highly informative responses, prompting growing interest in using these ''synthetic'' outputs as data in empirical research and decision-making. This paper introduces the idea of a foundation prior, which shows that model-generated outputs are not as real observations, but draws from the foundation prior induced prior predictive distribution. As such synthetic data reflects both the model's learned patterns and the user's subjective priors, expectations, and biases. We model the subjectivity of the generative process by making explicit the dependence of synthetic outputs on the user's anticipated data distribution, the prompt-engineering process, and the trust placed in the foundation model. We derive the foundation prior as an exponential-tilted, generalized Bayesian update of the user's primitive prior, where a trust parameter governs the weight assigned to synthetic data. We then show how synthetic data and the associated foundation prior can be incorporated into standard statistical and econometric workflows, and discuss their use in applications such as refining complex models, informing latent constructs, guiding experimental design, and augmenting random-coefficient and partially linear specifications. By treating generative outputs as structured, explicitly subjective priors rather than as empirical observations, the framework offers a principled way to harness foundation models in empirical work while avoiding the conflation of synthetic ''facts'' with real data.
- Abstract(参考訳): 基礎モデル、特に大きな言語モデルは、高い情報的反応を生じさせ、経験的研究や意思決定のデータとしてこれらの「合成」出力を使うことへの関心が高まっている。
本稿では, モデル生成出力が実測値ではなく, 先行予測分布から導出される基礎の考え方を紹介する。
このような合成データは、モデルの学習パターンとユーザの主観的事前、期待、偏見の両方を反映する。
生成過程の主観性は, ユーザの期待するデータ分布, プロンプト・エンジニアリング・プロセス, 基礎モデルに置かれる信頼度に, 合成出力の依存度を明確にすることでモデル化する。
提案手法は, 信頼パラメータが合成データに割り当てられた重みを規定する, ユーザのプリミティブプリミティブプリミティブプリミティブプリミティブのベイズ的更新である。
次に、合成データと関連する基礎を標準的な統計的および計量的ワークフローに組み込む方法を示し、複素モデルの精細化、潜伏構造をインフォームする、実験設計の指導、ランダム係数と部分線形仕様の増大など、それらの応用について論じる。
生成的アウトプットを経験的観察としてではなく、構造化され、明示的な主観的先行として扱うことにより、このフレームワークは、実データとの合成「事実」の融合を回避しつつ、経験的作業における基礎モデルを活用するための原則化された方法を提供する。
関連論文リスト
- Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - A Generalized Theory of Mixup for Structure-Preserving Synthetic Data [2.184775414778289]
混合は分散などの重要な統計特性を歪め、データ合成において意図しない結果をもたらす可能性があることを示す。
一般化されたフレキシブルな重み付け方式を取り入れた新しい混合手法を提案し,元のデータ構造をよりよく保存する。
数値実験により、新しい手法は元のデータの統計特性を保存できるだけでなく、繰り返し合成するモデル性能も維持できることを確認した。
論文 参考訳(メタデータ) (2025-03-03T14:28:50Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。