論文の概要: From Garbage to Gold: A Data-Architectural Theory of Predictive Robustness
- arxiv url: http://arxiv.org/abs/2603.12288v1
- Date: Sun, 08 Mar 2026 18:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.673516
- Title: From Garbage to Gold: A Data-Architectural Theory of Predictive Robustness
- Title(参考訳): ゴミから金へ:予測ロバスト性に関するデータアーキテクチャ理論
- Authors: Terrence J. Lee-St. John, Jordan L. Lawson, Bartlomiej Piechowski-Jozwiak,
- Abstract要約: 本研究では,高次元誤差確率予測器が2種類のノイズを克服することを示す。
本稿では,ロバストネスを効率的に実現する予測器を識別する「プロアクティブデータ中心型AI」を提案する。
データ品質をアイテムレベルの完全性からポートフォリオレベルのアーキテクチャに再定義することで、“ローカル要因”の理論的理論的根拠を提供する。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular machine learning presents a paradox: modern models achieve state-of-the-art performance using high-dimensional (high-D), collinear, error-prone data, defying the "Garbage In, Garbage Out" mantra. To help resolve this, we synthesize principles from Information Theory, Latent Factor Models, and Psychometrics, clarifying that predictive robustness arises not solely from data cleanliness, but from the synergy between data architecture and model capacity. Partitioning predictor-space "noise" into "Predictor Error" and "Structural Uncertainty" (informational deficits from stochastic generative mappings), we prove that leveraging high-D sets of error-prone predictors asymptotically overcomes both types of noise, whereas cleaning a low-D set is fundamentally bounded by Structural Uncertainty. We demonstrate why "Informative Collinearity" (dependencies from shared latent causes) enhances reliability and convergence efficiency, and explain why increased dimensionality reduces the latent inference burden, enabling feasibility with finite samples. To address practical constraints, we propose "Proactive Data-Centric AI" to identify predictors that enable robustness efficiently. We also derive boundaries for Systematic Error Regimes and show why models that absorb "rogue" dependencies can mitigate assumption violations. Linking latent architecture to Benign Overfitting, we offer a first step towards a unified view of robustness to Outcome Error and predictor-space noise, while also delineating when traditional DCAI's focus on label cleaning remains powerful. By redefining data quality from item-level perfection to portfolio-level architecture, we provide a theoretical rationale for "Local Factories" -- learning from live, uncurated enterprise "data swamps" -- supporting a deployment paradigm shift from "Model Transfer" to "Methodology Transfer'' to overcome static generalizability limitations.
- Abstract(参考訳): 最新のモデルは、高次元(高次元)、コリニア、エラーを起こしやすいデータを使い、"Garbage In, Garbage Out"マントラを無視することで最先端のパフォーマンスを達成する。
この問題を解決するために、情報理論、潜在因子モデル、心理学から原則を合成し、予測的堅牢性はデータの清潔さだけでなく、データアーキテクチャとモデルキャパシティの相乗効果からも生じることを明らかにした。
予測空間「ノイズ」を「予測誤差」と「構造的不確実性」(確率的生成写像による情報障害)に分割することにより、高次元の誤り予測器の集合を漸近的に克服する一方、低次元集合のクリーニングは構造的不確実性によって根本的に制限されることを示す。
筆者らは,「情報的コリナリティ」が信頼性と収束効率を向上する理由を実証し,次元性の増大が潜在推論の負担を軽減し,有限サンプルで実現可能であることを説明する。
実用的制約に対処するため,ロバスト性を実現する予測器の同定に「プロアクティブデータ中心型AI」を提案する。
また、システムエラーレジームのバウンダリを導出し、なぜ"不正"な依存関係を吸収するモデルが仮定違反を軽減するのかを示す。
潜在アーキテクチャをBenign Overfittingにリンクすることで、アウトカムエラーと予測空間ノイズに対する堅牢性の統一的なビューに向けた第一歩を提供します。
データ品質をアイテムレベルの完全性からポートフォリオレベルのアーキテクチャに再定義することで、静的な一般化可能性の限界を克服するために、"ローカルファクトリ(Local Factories)" -- 生の未計算のエンタープライズ"データ湿地(data swamps)"から学ぶ -- が"モデル転送"から"メソッド転送(Methodology Transfer)"へのデプロイメントパラダイムシフトをサポートする、という理論的根拠を提供します。
関連論文リスト
- Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - QoSDiff: An Implicit Topological Embedding Learning Framework Leveraging Denoising Diffusion and Adversarial Attention for Robust QoS Prediction [5.632045399777709]
本稿では,明示的なグラフ構築の前提条件を回避した新しい埋め込み学習フレームワークであるemphQoSDiffを紹介する。
これらの課題に対処するために,明示的なグラフ構築の前提条件を回避した新しい埋め込み学習フレームワークであるemphQoSDiffを紹介する。
論文 参考訳(メタデータ) (2025-12-04T09:17:26Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Adversarial Purification by Consistency-aware Latent Space Optimization on Data Manifolds [48.37843602248313]
ディープニューラルネットワーク(DNN)は、クリーンデータに知覚不能な摂動を加えることで作られた敵のサンプルに対して脆弱であり、誤った危険な予測につながる可能性がある。
本稿では、事前学習された一貫性モデルの潜在空間内のベクトルを最適化し、クリーンなデータを復元するためのサンプルを生成する、一貫性モデルに基づく適応的パーフィケーション(CMAP)を提案する。
CMAPは、高い自然な精度を維持しながら、強力な敵攻撃に対する堅牢性を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-11T14:14:02Z) - Training More Robust Classification Model via Discriminative Loss and Gaussian Noise Injection [7.535952418691443]
本稿では,クラス内コンパクト性を明示する最小層に適用した損失関数を提案する。
また、ノイズの多いデータクラスタをクリーンなクラスタに近づける、クラスワイズな機能アライメント機構を提案する。
提案手法は, クリーンなデータに対して高い精度を維持しながら, 各種摂動に対するモデルロバスト性を大幅に強化する。
論文 参考訳(メタデータ) (2024-05-28T18:10:45Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Generalizing Variational Autoencoders with Hierarchical Empirical Bayes [6.273154057349038]
確率的生成モデルのための計算的に安定なフレームワークである階層的経験的ベイズオートエンコーダ(HEBAE)を提案する。
鍵となる貢献は2つであり、まず、符号化分布を階層的に優先することで、再構成損失関数の最小化と過正規化の回避とのトレードオフを適応的にバランスさせることで、利益を得る。
論文 参考訳(メタデータ) (2020-07-20T18:18:39Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。