論文の概要: Categorical exploratory data analysis on goodness-of-fit issues
- arxiv url: http://arxiv.org/abs/2011.09682v2
- Date: Fri, 4 Dec 2020 01:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:53:11.756696
- Title: Categorical exploratory data analysis on goodness-of-fit issues
- Title(参考訳): 適合性問題に関するカテゴリー探索データ分析
- Authors: Sabrina Enriquez, Fushing Hsieh
- Abstract要約: 我々はCategorical Exploratory Data Analysis (CEDA)と呼ばれるデータ分析パラダイムを活用することを提案する。
CEDAは、複数の重要な分散的な側面を通じて、各データがモデル形状に適合するか、どのように一致するかを明らかにします。
我々は,CEDAをデータサイエンス教育におけるデータ分析の第一の方法として活用することの利点を,グラフィック表示により明らかにする。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If the aphorism "All models are wrong"- George Box, continues to be true in
data analysis, particularly when analyzing real-world data, then we should
annotate this wisdom with visible and explainable data-driven patterns. Such
annotations can critically shed invaluable light on validity as well as
limitations of statistical modeling as a data analysis approach. In an effort
to avoid holding our real data to potentially unattainable or even unrealistic
theoretical structures, we propose to utilize the data analysis paradigm called
Categorical Exploratory Data Analysis (CEDA). We illustrate the merits of this
proposal with two real-world data sets from the perspective of goodness-of-fit.
In both data sets, the Normal distribution's bell shape seemingly fits rather
well by first glance. We apply CEDA to bring out where and how each data fits
or deviates from the model shape via several important distributional aspects.
We also demonstrate that CEDA affords a version of tree-based p-value, and
compare it with p-values based on traditional statistical approaches. Along our
data analysis, we invest computational efforts in making graphic display to
illuminate the advantages of using CEDA as one primary way of data analysis in
Data Science education.
- Abstract(参考訳): ジョージ・ボックス(george box)は、データ分析において、特に現実世界のデータ分析において、引き続き真であり続けるならば、この知恵を可視で説明可能なデータ駆動型パターンで注釈すべきである。
このようなアノテーションは、データ分析アプローチとしての統計モデリングの限界だけでなく、妥当性にも価値ある光を当てることができる。
実データを潜在的に到達不能あるいは非現実的な理論構造に保持することを避けるため、我々はカテゴリ探索データ分析(ceda)と呼ばれるデータ分析パラダイムを活用すべきである。
本提案のメリットを,適合性の観点から,実世界の2つのデータセットを用いて説明する。
どちらのデータセットでも、通常の分布のベル形状は一見するとかなりよく合っているように見える。
CEDAを適用して、各データがモデル形状に適合するか、どのようにずれるのかを、いくつかの重要な分布面を通して明らかにする。
また、CEDA は木に基づく p-値のバージョンを利用できることを実証し、従来の統計的アプローチに基づく p-値と比較する。
データ分析とともに、データサイエンス教育におけるデータ分析の第一手段としてcedaを使用する利点を照らし出すために、グラフィックディスプレイの作成に計算の努力を注ぐ。
関連論文リスト
- Bayesian Federated Inference for Survival Models [0.0]
がん研究において、全体的な生存と進行の自由生存は、しばしばコックスモデルで分析される。
異なる医療センターのデータセットをマージすることは役に立つかもしれないが、厳格なプライバシー法とロジスティックな困難のために、これは必ずしも可能ではない。
近年,一般化線形モデルに対するベイズ連邦推論(BFI)戦略が提案されている。
論文 参考訳(メタデータ) (2024-04-26T15:05:26Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - PADME-SoSci: A Platform for Analytics and Distributed Machine Learning
for the Social Sciences [4.294774517325059]
PADMEは、モデルの実装とトレーニングを連携させる分散分析ツールである。
これにより、すべてのデータが単一の場所にあるかのようにモデルをトレーニングしながら、ロケーションをまたいだデータ分析が可能になる。
論文 参考訳(メタデータ) (2023-03-27T15:32:35Z) - Why we should respect analysis results as data [0.0]
臨床研究データの解析も結果の形でデータを生成するのが一般的である。
知見を文脈に組み込んだ分析は科学的研究の基盤となっているが、分析結果はしばしばデータソースとして無視される。
本稿では,分析結果標準と共通データモデルを組み合わせた「一度計算し,何度も使用」する手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T08:34:07Z) - Data Representativity for Machine Learning and AI Systems [2.588973722689844]
機械学習モデルを通じてデータから推論を描く場合、データの表現力は不可欠である。
本稿では,AIとサンプリングに関する科学文献におけるデータ表現性について分析する。
論文 参考訳(メタデータ) (2022-03-09T13:34:52Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。