論文の概要: Application of the representative measure approach to assess the reliability of decision trees in dealing with unseen vehicle collision data
- arxiv url: http://arxiv.org/abs/2404.09541v1
- Date: Mon, 15 Apr 2024 08:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:09:46.041383
- Title: Application of the representative measure approach to assess the reliability of decision trees in dealing with unseen vehicle collision data
- Title(参考訳): 車両衝突データ処理における決定木の信頼性評価のための代表測度手法の適用
- Authors: Javier Perera-Lago, Víctor Toscano-Durán, Eduardo Paluzo-Hidalgo, Sara Narteni, Matteo Rucco,
- Abstract要約: 代表的データセットは、人工知能(AI)開発の軌跡を形成するための基盤となる。
本稿では,決定木の理論的観点からデータセット類似性を評価するために,$varepsilon$-representativeness法の信頼性について検討する。
我々は,XGboostの車両衝突データを用いて,実験結果を拡張した。
- 参考スコア(独自算出の注目度): 0.6571063542099526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms are fundamental components of novel data-informed Artificial Intelligence architecture. In this domain, the imperative role of representative datasets is a cornerstone in shaping the trajectory of artificial intelligence (AI) development. Representative datasets are needed to train machine learning components properly. Proper training has multiple impacts: it reduces the final model's complexity, power, and uncertainties. In this paper, we investigate the reliability of the $\varepsilon$-representativeness method to assess the dataset similarity from a theoretical perspective for decision trees. We decided to focus on the family of decision trees because it includes a wide variety of models known to be explainable. Thus, in this paper, we provide a result guaranteeing that if two datasets are related by $\varepsilon$-representativeness, i.e., both of them have points closer than $\varepsilon$, then the predictions by the classic decision tree are similar. Experimentally, we have also tested that $\varepsilon$-representativeness presents a significant correlation with the ordering of the feature importance. Moreover, we extend the results experimentally in the context of unseen vehicle collision data for XGboost, a machine-learning component widely adopted for dealing with tabular data.
- Abstract(参考訳): 機械学習アルゴリズムは、新しいデータインフォームド人工知能アーキテクチャの基本コンポーネントである。
この領域では、代表データセットの命令的役割は、人工知能(AI)開発の軌跡を形成するための基礎となる。
機械学習コンポーネントを適切にトレーニングするためには、一般的なデータセットが必要である。
適切なトレーニングは、最終モデルの複雑さ、パワー、不確実性を減らします。
本稿では,決定木の理論的観点から,データセットの類似性を評価するための$\varepsilon$-representativeness法の信頼性について検討する。
説明可能なさまざまなモデルを含むため、意思決定ツリーのファミリーに注力することにしました。
したがって、本論文では、2つのデータセットが$\varepsilon$-representativenessによって関連付けられている場合、両者が$\varepsilon$より近い点を持つ場合、古典的な決定木による予測が類似していることを保証する。
実験により,$\varepsilon$-representativenessが特徴量の順序と有意な相関を示すことを示した。
さらに,表型データを扱うために広く採用されている機械学習コンポーネントであるXGboostの車両衝突データに関して,実験結果を拡張した。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - An Interpretable Client Decision Tree Aggregation process for Federated Learning [7.8973037023478785]
本稿では,フェデレート学習シナリオを対象とした解釈可能なクライアント決定木集約プロセスを提案する。
このモデルは、決定ツリーの複数の決定パスの集約に基づいており、ID3やCARTなど、さまざまな決定ツリータイプで使用することができる。
4つのデータセットで実験を行い、分析により、モデルで構築された木が局所モデルを改善し、最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-04-03T06:53:56Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Mutual Information Estimation via $f$-Divergence and Data Derangements [6.43826005042477]
本稿では,$f$-divergenceの変動表現に基づく,新たな識別情報推定手法を提案する。
提案した推定器は、優れたバイアス/分散トレードオフを示すため、柔軟である。
論文 参考訳(メタデータ) (2023-05-31T16:54:25Z) - Metric Tools for Sensitivity Analysis with Applications to Neural
Networks [0.0]
説明可能な人工知能(XAI)は、機械学習モデルによる予測の解釈を提供することを目的としている。
本稿では,計量手法を用いてMLモデルの感性を研究するための理論的枠組みを提案する。
$alpha$-curvesと呼ばれる新しいメトリクスの完全なファミリーが抽出される。
論文 参考訳(メタデータ) (2023-05-03T18:10:21Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - A Theory of Usable Information Under Computational Constraints [103.5901638681034]
本稿では,複雑なシステムにおける情報推論のための新しいフレームワークを提案する。
我々の基礎はシャノンの情報理論の変分拡張に基づいている。
計算制約を組み込むことで,データから$mathcalV$-informationを確実に推定できることを示す。
論文 参考訳(メタデータ) (2020-02-25T06:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。