論文の概要: Linear Regression under Missing or Corrupted Coordinates
- arxiv url: http://arxiv.org/abs/2509.19242v1
- Date: Tue, 23 Sep 2025 17:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.967671
- Title: Linear Regression under Missing or Corrupted Coordinates
- Title(参考訳): 故障又は故障したコーディネートによる線形回帰
- Authors: Ilias Diakonikolas, Jelena Diakonikolas, Daniel M. Kane, Jasper C. H. Lee, Thanasis Pittas,
- Abstract要約: 我々は,コーディネート的な予算の下で,敵によってデータの破損や消去を行う方法について検討する。
不完全なデータ設定では、敵はデータセットを検査し、最大1座標あたりのサンプルの$eta$-fractionのエントリを削除することができる。
破損したデータ設定では、敵は代わりに任意に値を置換し、その汚職位置は学習者にとって未知である。
- 参考スコア(独自算出の注目度): 58.9213131489513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multivariate linear regression under Gaussian covariates in two settings, where data may be erased or corrupted by an adversary under a coordinate-wise budget. In the incomplete data setting, an adversary may inspect the dataset and delete entries in up to an $\eta$-fraction of samples per coordinate; a strong form of the Missing Not At Random model. In the corrupted data setting, the adversary instead replaces values arbitrarily, and the corruption locations are unknown to the learner. Despite substantial work on missing data, linear regression under such adversarial missingness remains poorly understood, even information-theoretically. Unlike the clean setting, where estimation error vanishes with more samples, here the optimal error remains a positive function of the problem parameters. Our main contribution is to characterize this error up to constant factors across essentially the entire parameter range. Specifically, we establish novel information-theoretic lower bounds on the achievable error that match the error of (computationally efficient) algorithms. A key implication is that, perhaps surprisingly, the optimal error in the missing data setting matches that in the corruption setting-so knowing the corruption locations offers no general advantage.
- Abstract(参考訳): ガウシアン共変量の下での多変量線形回帰を2つの条件で検討し, コーディネート的予算の下で, 逆数によってデータを消去したり, 破損させたりすることができることを示した。
不完全なデータ設定では、敵はデータセットを検査し、座標毎に$\eta$-fractionのサンプルを削除できる。
破損したデータ設定では、敵は代わりに任意に値を置換し、その汚職位置は学習者にとって未知である。
欠落データに関するかなりの研究にもかかわらず、そのような敵対的欠落の下での線形回帰は、情報理論でさえも理解し難いままである。
より多くのサンプルで推定誤差が消えるクリーンな設定とは異なり、最適誤差は問題パラメータの正の関数のままである。
私たちの主な貢献は、このエラーをパラメータ範囲全体にわたって定数要素まで特徴づけることです。
具体的には,(計算効率のよい)アルゴリズムの誤差と一致する達成可能な誤差に対して,新しい情報理論の下限を確立する。
重要な意味は、おそらく意外なことに、欠落したデータ設定における最適エラーは、汚職設定における最適エラーと一致している。
関連論文リスト
- Adversarial Robustness of Nonparametric Regression [14.20104019605888]
回帰関数が2階ソボレフ空間に属することを前提として、非パラメトリック回帰における対向ロバスト性を特徴づける。
古典的なスムーズなスプライン推定器が適切に正規化されると、敵の汚職に対して頑健であることを示す。
論文 参考訳(メタデータ) (2025-05-23T00:18:20Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - Robust Online Covariance and Sparse Precision Estimation Under Arbitrary
Data Corruption [1.5850859526672516]
本稿では,オンラインシナリオにおける共分散を頑健に推定する改良型トリミング・インナー・プロデューサアルゴリズムを提案する。
推定値の誤差バウンドおよび収束特性を,アルゴリズムの真精度行列に与える。
論文 参考訳(メタデータ) (2023-09-16T05:37:28Z) - Detecting Errors in a Numerical Response via any Regression Model [21.651775224356214]
ノイズは多くの数値データセットを悩ませ、データ中の記録された値が真の基礎となる値と一致しない可能性がある。
真の誤りと自然データゆらぎを区別する妥当性スコアを導入する。
また,実世界の数値誤差を伴う5つの回帰データセットを含む新しいエラー検出ベンチマークも提案する。
論文 参考訳(メタデータ) (2023-05-26T02:15:26Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Classification and Uncertainty Quantification of Corrupted Data using
Semi-Supervised Autoencoders [11.300365160909879]
本稿では,強い破損したデータを分類し,不確実性を定量化する確率論的手法を提案する。
破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。
モデルの不確実性は、その分類が正しいか間違っているかに強く依存していることを示す。
論文 参考訳(メタデータ) (2021-05-27T18:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。