論文の概要: High Dimensional Data Enrichment: Interpretable, Fast, and
Data-Efficient
- arxiv url: http://arxiv.org/abs/1806.04047v4
- Date: Fri, 30 Jun 2023 06:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 16:19:20.225929
- Title: High Dimensional Data Enrichment: Interpretable, Fast, and
Data-Efficient
- Title(参考訳): 高次元データ強化:解釈可能、高速、データ効率
- Authors: Amir Asiaee, Samet Oymak, Kevin R. Coombes, Arindam Banerjee
- Abstract要約: 本稿では,データエンリッチメント/共有と呼ばれる複数連結線形回帰問題に対する推定器を提案する。
本研究は, プール試料のアンカーから, 共通パラメータの回収に有効であることを示す。
全体として、データ共有モデルにおける推論の統計学的および計算学的解析を初めて提示する。
- 参考スコア(独自算出の注目度): 38.40316295019222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of multi-task learning in the high dimensional
setting. In particular, we introduce an estimator and investigate its
statistical and computational properties for the problem of multiple connected
linear regressions known as Data Enrichment/Sharing. The between-tasks
connections are captured by a cross-tasks \emph{common parameter}, which gets
refined by per-task \emph{individual parameters}. Any convex function, e.g.,
norm, can characterize the structure of both common and individual parameters.
We delineate the sample complexity of our estimator and provide a high
probability non-asymptotic bound for estimation error of all parameters under a
geometric condition. We show that the recovery of the common parameter benefits
from \emph{all} of the pooled samples. We propose an iterative estimation
algorithm with a geometric convergence rate and supplement our theoretical
analysis with experiments on synthetic data. Overall, we present a first
thorough statistical and computational analysis of inference in the
data-sharing model.
- Abstract(参考訳): 高次元環境におけるマルチタスク学習の問題点を考察する。
特に,データエンリッチメント/シェアリングとして知られる多重連結線形回帰問題に対して,推定器を導入し,その統計的・計算的性質について検討する。
インタータスク接続はクロスタスク \emph{common parameters} によってキャプチャされ、これはper-task \emph{individual parameters} によって洗練される。
任意の凸関数、例えばノルムは、共通パラメータと個別パラメータの両方の構造を特徴づけることができる。
我々は,推定器のサンプル複雑性を記述し,幾何学的条件下で全てのパラメータの誤差を推定するための高確率非漸近境界を与える。
一般的なパラメータの回復は、プールされたサンプルの \emph{all} から得られる。
本研究では,幾何収束率の反復推定アルゴリズムを提案し,理論解析を合成データ実験で補う。
総じて,データ共有モデルにおける推論の統計学的および計算的解析を初めて行った。
関連論文リスト
- Large Dimensional Independent Component Analysis: Statistical Optimality
and Computational Tractability [13.104413212606577]
独立成分分析(ICA)における最適統計性能と計算制約の影響について検討する。
最適サンプルの複雑性は次元において線形であることが示される。
我々は,最適サンプルの複雑性と最小収束率の両立が可能な計算抽出可能な推定値を開発する。
論文 参考訳(メタデータ) (2023-03-31T15:46:30Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms
and Theoretical Studies [1.6457778420360534]
任意の損失関数を強固化するために, 外部抵抗推定の枠組みを導入する。
通常のデータセットでは、データ再見積の回数を大幅に削減できるような、開始点の要件を緩和する新しい手法が提案されている。
得られた推定器は、必ずしも大域的でも大域的でもなくても、両方の低次元において最適性を楽しむことができる。
論文 参考訳(メタデータ) (2021-12-15T20:35:21Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Doubly Robust Semiparametric Difference-in-Differences Estimators with
High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。
第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。
第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文 参考訳(メタデータ) (2020-09-07T15:14:29Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。