論文の概要: Khiops: An End-to-End, Frugal AutoML and XAI Machine Learning Solution for Large, Multi-Table Databases
- arxiv url: http://arxiv.org/abs/2508.20519v1
- Date: Thu, 28 Aug 2025 08:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.177218
- Title: Khiops: An End-to-End, Frugal AutoML and XAI Machine Learning Solution for Large, Multi-Table Databases
- Title(参考訳): Khiops: 大規模マルチテーブルデータベースのためのエンド・ツー・エンド、フルーガルオートML、XAI機械学習ソリューション
- Authors: Marc Boullé, Nicolas Voisine, Bruno Guerraz, Carine Hue, Felipe Olmos, Vladimir Popescu, Stéphane Gouache, Stéphane Bouget, Alexis Bondu, Luc Aurelien Gauthier, Yassine Nair Benrekia, Fabrice Clérot, Vincent Lemaire,
- Abstract要約: Khiopsは、大規模なマルチテーブルデータベースをマイニングするために設計された、オープンソースの機械学習ツールである。
これは離散化モデルを用いて変数重要性の予測尺度を提供する。
Pythonライブラリとユーザインターフェースの両方から、さまざまな環境で利用可能だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Khiops is an open source machine learning tool designed for mining large multi-table databases. Khiops is based on a unique Bayesian approach that has attracted academic interest with more than 20 publications on topics such as variable selection, classification, decision trees and co-clustering. It provides a predictive measure of variable importance using discretisation models for numerical data and value clustering for categorical data. The proposed classification/regression model is a naive Bayesian classifier incorporating variable selection and weight learning. In the case of multi-table databases, it provides propositionalisation by automatically constructing aggregates. Khiops is adapted to the analysis of large databases with millions of individuals, tens of thousands of variables and hundreds of millions of records in secondary tables. It is available on many environments, both from a Python library and via a user interface.
- Abstract(参考訳): Khiopsは、大規模なマルチテーブルデータベースをマイニングするために設計された、オープンソースの機械学習ツールである。
Khiopsは独自のベイズ的アプローチに基づいており、変数の選択、分類、決定木、コクラスタリングといったトピックに関する20以上の論文で学術的な関心を集めている。
数値データの離散化モデルと分類データの値クラスタリングを用いて,変数の重要性の予測尺度を提供する。
提案した分類/回帰モデルは,変分選択と重み学習を取り入れた単純ベイズ分類器である。
マルチテーブルデータベースの場合、アグリゲーションを自動的に構築することで命題化を提供する。
Khiopsは、数百万の個人、数万の変数、数億のレコードを二次テーブルに格納する大規模データベースの分析に適応している。
Pythonライブラリとユーザインターフェースの両方から、さまざまな環境で利用可能だ。
関連論文リスト
- Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Harnessing Diversity for Important Data Selection in Pretraining Large Language Models [39.89232835928945]
textttQuadは、データの影響を利用して、最先端の事前トレーニング結果を達成することによって、品質と多様性の両方を考慮する。
多様性のために、textttQuadはデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
論文 参考訳(メタデータ) (2024-09-25T14:49:29Z) - Policy Trees for Prediction: Interpretable and Adaptive Model Selection for Machine Learning [5.877778007271621]
予測モデルやアンサンブルを適応的に選択するための解釈可能なポリシーを導出するツリーベースアプローチであるOP2T(Optimal Predictive-Policy Trees)を導入する。
提案手法は,モデル出力へのアクセスを前提としてのみ,解釈可能かつ適応的なモデル選択と拒否を可能にする。
構造化データと非構造化データの両方を用いた回帰および分類タスクを含む実世界のデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-30T21:21:33Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。