Fugu-MT 論文翻訳(概要): Categorical exploratory data analysis on goodness-of-fit issues

論文の概要: Categorical exploratory data analysis on goodness-of-fit issues

arxiv url: http://arxiv.org/abs/2011.09682v2
Date: Fri, 4 Dec 2020 01:41:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 20:53:11.756696
Title: Categorical exploratory data analysis on goodness-of-fit issues
Title（参考訳）: 適合性問題に関するカテゴリー探索データ分析
Authors: Sabrina Enriquez, Fushing Hsieh
Abstract要約: 我々はCategorical Exploratory Data Analysis (CEDA)と呼ばれるデータ分析パラダイムを活用することを提案する。 CEDAは、複数の重要な分散的な側面を通じて、各データがモデル形状に適合するか、どのように一致するかを明らかにします。我々は,CEDAをデータサイエンス教育におけるデータ分析の第一の方法として活用することの利点を,グラフィック表示により明らかにする。
参考スコア（独自算出の注目度）: 0.6091702876917279
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: If the aphorism "All models are wrong"- George Box, continues to be true in data analysis, particularly when analyzing real-world data, then we should annotate this wisdom with visible and explainable data-driven patterns. Such annotations can critically shed invaluable light on validity as well as limitations of statistical modeling as a data analysis approach. In an effort to avoid holding our real data to potentially unattainable or even unrealistic theoretical structures, we propose to utilize the data analysis paradigm called Categorical Exploratory Data Analysis (CEDA). We illustrate the merits of this proposal with two real-world data sets from the perspective of goodness-of-fit. In both data sets, the Normal distribution's bell shape seemingly fits rather well by first glance. We apply CEDA to bring out where and how each data fits or deviates from the model shape via several important distributional aspects. We also demonstrate that CEDA affords a version of tree-based p-value, and compare it with p-values based on traditional statistical approaches. Along our data analysis, we invest computational efforts in making graphic display to illuminate the advantages of using CEDA as one primary way of data analysis in Data Science education.
Abstract（参考訳）: ジョージ・ボックス(george box)は、データ分析において、特に現実世界のデータ分析において、引き続き真であり続けるならば、この知恵を可視で説明可能なデータ駆動型パターンで注釈すべきである。このようなアノテーションは、データ分析アプローチとしての統計モデリングの限界だけでなく、妥当性にも価値ある光を当てることができる。実データを潜在的に到達不能あるいは非現実的な理論構造に保持することを避けるため、我々はカテゴリ探索データ分析(ceda)と呼ばれるデータ分析パラダイムを活用すべきである。本提案のメリットを,適合性の観点から,実世界の2つのデータセットを用いて説明する。どちらのデータセットでも、通常の分布のベル形状は一見するとかなりよく合っているように見える。 CEDAを適用して、各データがモデル形状に適合するか、どのようにずれるのかを、いくつかの重要な分布面を通して明らかにする。また、CEDA は木に基づく p-値のバージョンを利用できることを実証し、従来の統計的アプローチに基づく p-値と比較する。データ分析とともに、データサイエンス教育におけるデータ分析の第一手段としてcedaを使用する利点を照らし出すために、グラフィックディスプレイの作成に計算の努力を注ぐ。

関連論文リスト

DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。この手法は従来の精度に基づく評価手法から逸脱したものである。データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文参考訳（メタデータ） (2024-10-29T19:32:53Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
Bayesian Federated Inference for Survival Models [0.0]
がん研究において、全体的な生存と進行の自由生存は、しばしばコックスモデルで分析される。異なる医療センターのデータセットをマージすることは役に立つかもしれないが、厳格なプライバシー法とロジスティックな困難のために、これは必ずしも可能ではない。近年,一般化線形モデルに対するベイズ連邦推論(BFI)戦略が提案されている。
論文参考訳（メタデータ） (2024-04-26T15:05:26Z)
DAGnosis: Localized Identification of Data Inconsistencies using Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文参考訳（メタデータ） (2024-02-26T11:29:16Z)
Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。これらのグラフモデルと従来の協調フィルタリングモデルを比較する。ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文参考訳（メタデータ） (2023-08-01T09:31:44Z)
PADME-SoSci: A Platform for Analytics and Distributed Machine Learning for the Social Sciences [4.294774517325059]
PADMEは、モデルの実装とトレーニングを連携させる分散分析ツールである。これにより、すべてのデータが単一の場所にあるかのようにモデルをトレーニングしながら、ロケーションをまたいだデータ分析が可能になる。
論文参考訳（メタデータ） (2023-03-27T15:32:35Z)
Why we should respect analysis results as data [0.0]
臨床研究データの解析も結果の形でデータを生成するのが一般的である。知見を文脈に組み込んだ分析は科学的研究の基盤となっているが、分析結果はしばしばデータソースとして無視される。本稿では,分析結果標準と共通データモデルを組み合わせた「一度計算し,何度も使用」する手法を提案する。
論文参考訳（メタデータ） (2022-04-21T08:34:07Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文参考訳（メタデータ） (2020-09-22T20:19:41Z)
Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文参考訳（メタデータ） (2020-09-01T15:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。