論文の概要: Instrument variable detection with graph learning : an application to
high dimensional GIS-census data for house pricing
- arxiv url: http://arxiv.org/abs/2007.15769v2
- Date: Wed, 16 Dec 2020 18:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 13:49:17.931503
- Title: Instrument variable detection with graph learning : an application to
high dimensional GIS-census data for house pricing
- Title(参考訳): グラフ学習を用いた機器変数検出 : 住宅価格の高次元GISセンサスデータへの適用
- Authors: Ning Xu, Timothy C.G. Fisher, Jian Hong
- Abstract要約: ビッグデータ」を用いて,データ駆動型機器の選択を効率的に行い,無効な機器を除去することが可能であることを示す。
このアプローチはまた、内在性検出、楽器の検証、弱い楽器のプルーニング、有効な機器の選択における効率と有効性を明らかにしている。
- 参考スコア(独自算出の注目度): 6.837167110907022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endogeneity bias and instrument variable validation have always been
important topics in statistics and econometrics. In the era of big data, such
issues typically combine with dimensionality issues and, hence, require even
more attention. In this paper, we merge two well-known tools from machine
learning and biostatistics---variable selection algorithms and probablistic
graphs---to estimate house prices and the corresponding causal structure using
2010 data on Sydney. The estimation uses a 200-gigabyte ultrahigh dimensional
database consisting of local school data, GIS information, census data, house
characteristics and other socio-economic records. Using "big data", we show
that it is possible to perform a data-driven instrument selection efficiently
and purge out the invalid instruments. Our approach improves the sparsity of
variable selection, stability and robustness in the presence of high
dimensionality, complicated causal structures and the consequent
multicollinearity, and recovers a sparse and intuitive causal structure. The
approach also reveals an efficiency and effectiveness in endogeneity detection,
instrument validation, weak instrument pruning and the selection of valid
instruments. From the perspective of machine learning, the estimation results
both align with and confirms the facts of Sydney house market, the classical
economic theories and the previous findings of simultaneous equations modeling.
Moreover, the estimation results are consistent with and supported by classical
econometric tools such as two-stage least square regression and different
instrument tests. All the code may be found at
\url{https://github.com/isaac2math/solar_graph_learning}.
- Abstract(参考訳): 内在性バイアスと機器変数の検証は、統計学や計量学において常に重要なトピックである。
ビッグデータの時代においては、このような問題は一般的に次元の問題と組み合わせられるため、さらに注意が必要である。
本稿では,機械学習とバイオ統計学の2つの有名なツールを融合して,住宅価格とそれに対応する因果構造を,2010年シドニーのデータを用いて推定する。
この推定は、地元の学校データ、GIS情報、国勢調査データ、住宅特性、その他の社会経済記録からなる200ギガバイト超高次元データベースを用いている。
ビッグデータ」を用いて,データ駆動型楽器選択を効率的に行うことができ,無効な楽器を除去できることを示す。
提案手法は, 高次元構造, 複雑な因果構造, 連続多行構造の存在下での変動選択, 安定性, 堅牢性を向上し, スパースかつ直感的な因果構造を復元する。
このアプローチはまた、内在性検出、機器検証、弱い機器の刈り取り、有効な機器の選択において効率性と有効性を明らかにする。
機械学習の観点からは、評価結果はシドニーの住宅市場の事実、古典的経済理論、およびそれ以前の同時方程式モデリングの結果と一致し、裏付けるものである。
さらに、推定結果は2段階最小二乗回帰や異なる計器試験などの古典的計量ツールと一致し、支持されている。
すべてのコードは \url{https://github.com/isaac2math/solar_graph_learning} で見ることができる。
関連論文リスト
- fastHDMI: Fast Mutual Information Estimation for High-Dimensional Data [2.9901605297536027]
我々は高次元データセットにおける効率的な変数スクリーニングのために設計されたPythonパッケージであるfastHDMIを紹介した。
この研究は3つの相互情報推定手法のニューロイメージング変数選択への応用を開拓した。
論文 参考訳(メタデータ) (2024-10-14T01:49:53Z) - Inference for Large Scale Regression Models with Dependent Errors [3.3160726548489015]
この研究は、外因性変数を持つ一般化ウェーブレットモーメント法(GMWMX)の統計的性質を定義し、証明する。
これは、遅延依存構造や欠落データのようなデータ複雑度が存在するプロセスを用いて、線形モデルに対する推論を推定し、提供するための、高度にスケーラブルで安定で統計的に有効な方法である。
論文 参考訳(メタデータ) (2024-09-08T17:01:05Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Novel ML-driven Test Case Selection Approach for Enhancing the
Performance of Grammatical Evolution [0.07499722271664144]
テストケースの最適化により適合度評価時間を短縮する,機械学習駆動距離ベース選択(DBS)アルゴリズムを提案する。
我々は,Symbolic Regression(SR)とDigital Circuit Domainの24のベンチマーク問題に適用し,次に文法進化(GE)を用いて,削減されたデータセットを用いてモデルをトレーニングすることによって,アルゴリズムを検証した。
DBSを用いて選択したトレーニングデータのカバレッジ、すなわちサブセットがデータセット全体の統計特性とどの程度うまく一致しているかを測定するため、従来のトレーニング手法と比較して、ソリューションの品質をテストして比較する。
論文 参考訳(メタデータ) (2023-12-21T22:21:02Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Two ways towards combining Sequential Neural Network and Statistical
Methods to Improve the Prediction of Time Series [0.34265828682659694]
本稿では,データ特徴の統計的抽出を生かした2つの方法,分解に基づく方法,および方法を提案する。
我々は, 時系列データを用いて, 安定性の異なる提案を評価した。
性能評価の結果、どちらの手法もモデルと学習を別々に使用する既存のスキームより優れていることが示された。
論文 参考訳(メタデータ) (2021-09-30T20:34:58Z) - An Empirical Evaluation of the t-SNE Algorithm for Data Visualization in
Structural Engineering [2.4493299476776773]
t-Distributed Neighbor Embedding (t-SNE)アルゴリズムは、可視化目的で設定された地震関連データセットの寸法を縮小するために用いられる。
SMOTE(Synthetic Minority Oversampling Technique)は、このようなデータセットの不均衡な性質に対処するために用いられる。
トレーニングデータセットにおけるt-SNEとSMOTEを用いて、ニューラルネットワーク分類器は精度を犠牲にすることなく、有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-18T01:24:39Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。