論文の概要: Categorical exploratory data analysis on goodness-of-fit issues
- arxiv url: http://arxiv.org/abs/2011.09682v2
- Date: Fri, 4 Dec 2020 01:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:53:11.756696
- Title: Categorical exploratory data analysis on goodness-of-fit issues
- Title(参考訳): 適合性問題に関するカテゴリー探索データ分析
- Authors: Sabrina Enriquez, Fushing Hsieh
- Abstract要約: 我々はCategorical Exploratory Data Analysis (CEDA)と呼ばれるデータ分析パラダイムを活用することを提案する。
CEDAは、複数の重要な分散的な側面を通じて、各データがモデル形状に適合するか、どのように一致するかを明らかにします。
我々は,CEDAをデータサイエンス教育におけるデータ分析の第一の方法として活用することの利点を,グラフィック表示により明らかにする。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If the aphorism "All models are wrong"- George Box, continues to be true in
data analysis, particularly when analyzing real-world data, then we should
annotate this wisdom with visible and explainable data-driven patterns. Such
annotations can critically shed invaluable light on validity as well as
limitations of statistical modeling as a data analysis approach. In an effort
to avoid holding our real data to potentially unattainable or even unrealistic
theoretical structures, we propose to utilize the data analysis paradigm called
Categorical Exploratory Data Analysis (CEDA). We illustrate the merits of this
proposal with two real-world data sets from the perspective of goodness-of-fit.
In both data sets, the Normal distribution's bell shape seemingly fits rather
well by first glance. We apply CEDA to bring out where and how each data fits
or deviates from the model shape via several important distributional aspects.
We also demonstrate that CEDA affords a version of tree-based p-value, and
compare it with p-values based on traditional statistical approaches. Along our
data analysis, we invest computational efforts in making graphic display to
illuminate the advantages of using CEDA as one primary way of data analysis in
Data Science education.
- Abstract(参考訳): ジョージ・ボックス(george box)は、データ分析において、特に現実世界のデータ分析において、引き続き真であり続けるならば、この知恵を可視で説明可能なデータ駆動型パターンで注釈すべきである。
このようなアノテーションは、データ分析アプローチとしての統計モデリングの限界だけでなく、妥当性にも価値ある光を当てることができる。
実データを潜在的に到達不能あるいは非現実的な理論構造に保持することを避けるため、我々はカテゴリ探索データ分析(ceda)と呼ばれるデータ分析パラダイムを活用すべきである。
本提案のメリットを,適合性の観点から,実世界の2つのデータセットを用いて説明する。
どちらのデータセットでも、通常の分布のベル形状は一見するとかなりよく合っているように見える。
CEDAを適用して、各データがモデル形状に適合するか、どのようにずれるのかを、いくつかの重要な分布面を通して明らかにする。
また、CEDA は木に基づく p-値のバージョンを利用できることを実証し、従来の統計的アプローチに基づく p-値と比較する。
データ分析とともに、データサイエンス教育におけるデータ分析の第一手段としてcedaを使用する利点を照らし出すために、グラフィックディスプレイの作成に計算の努力を注ぐ。
関連論文リスト
- RealCQA-V2 : Visual Premise Proving [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
ディープラーニングモデルは、トレーニングプロセス中にデータ固有のバイアスを拾い上げることが多く、信頼性の低い予測につながります。
視覚データセットにおける概念共起バイアスの診断と緩和のための新しいフレームワークであるConBIASを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:59:01Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Bayesian Federated Inference for Survival Models [0.0]
がん研究において、全体的な生存と進行の自由生存は、しばしばコックスモデルで分析される。
異なる医療センターのデータセットをマージすることは役に立つかもしれないが、厳格なプライバシー法とロジスティックな困難のために、これは必ずしも可能ではない。
近年,一般化線形モデルに対するベイズ連邦推論(BFI)戦略が提案されている。
論文 参考訳(メタデータ) (2024-04-26T15:05:26Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - PADME-SoSci: A Platform for Analytics and Distributed Machine Learning
for the Social Sciences [4.294774517325059]
PADMEは、モデルの実装とトレーニングを連携させる分散分析ツールである。
これにより、すべてのデータが単一の場所にあるかのようにモデルをトレーニングしながら、ロケーションをまたいだデータ分析が可能になる。
論文 参考訳(メタデータ) (2023-03-27T15:32:35Z) - Why we should respect analysis results as data [0.0]
臨床研究データの解析も結果の形でデータを生成するのが一般的である。
知見を文脈に組み込んだ分析は科学的研究の基盤となっているが、分析結果はしばしばデータソースとして無視される。
本稿では,分析結果標準と共通データモデルを組み合わせた「一度計算し,何度も使用」する手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T08:34:07Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。