論文の概要: $\textit{lucie}$: An Improved Python Package for Loading Datasets from the UCI Machine Learning Repository
- arxiv url: http://arxiv.org/abs/2410.09119v1
- Date: Wed, 16 Oct 2024 03:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:13:24.722921
- Title: $\textit{lucie}$: An Improved Python Package for Loading Datasets from the UCI Machine Learning Repository
- Title(参考訳): $\textit{lucie}$: UCI Machine Learning RepositoryからデータセットをロードするPythonパッケージの改善
- Authors: Kenneth Ge, Phuc Nguyen, Ramy Arnaout,
- Abstract要約: $textitlucie$は、データフォーマットを決定し、これまで利用できなかったデータセットの多くをインポートするユーティリティである。
$textitlucie$は98%のコードカバレッジを持つPyPI上のPythonパッケージとして利用できる。
- 参考スコア(独自算出の注目度): 0.9538135250026231
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The University of California--Irvine (UCI) Machine Learning (ML) Repository (UCIMLR) is consistently cited as one of the most popular dataset repositories, hosting hundreds of high-impact datasets. However, a significant portion, including 28.4% of the top 250, cannot be imported via the $\textit{ucimlrepo}$ package that is provided and recommended by the UCIMLR website. Instead, they are hosted as .zip files, containing nonstandard formats that are difficult to import without additional ad hoc processing. To address this issue, here we present $\textit{lucie}$ -- $\underline{l}oad$ $\underline{U}niversity$ $\underline{C}alifornia$ $\underline{I}rvine$ $\underline{e}xamples$ -- a utility that automatically determines the data format and imports many of these previously non-importable datasets, while preserving as much of a tabular data structure as possible. $\textit{lucie}$ was designed using the top 100 most popular datasets and benchmarked on the next 130, where it resulted in a success rate of 95.4% vs. 73.1% for $\textit{ucimlrepo}$. $\textit{lucie}$ is available as a Python package on PyPI with 98% code coverage.
- Abstract(参考訳): カリフォルニア大学Irvine (UCI) Machine Learning (ML) Repository (UCIMLR)は、何百ものハイインパクトデータセットをホストする、最も人気のあるデータセットリポジトリの1つとして一貫して引用されている。
しかし、トップ250の28.4%を含むかなりの部分は、UCIMLRのウェブサイトで提供され推奨されている$\textit{ucimlrepo}$パッケージからインポートすることはできない。
代わりに、.zipファイルとしてホストされ、追加のアドホック処理なしでインポートが難しい非標準フォーマットを含んでいる。
この問題に対処するために、$\textit{lucie}$ -- $\underline{l}oad$ $\underline{U}niversity$ $\underline{C}alifornia$ $\underline{I}rvine$ $\underline{e}xamples$ -- データフォーマットを自動的に決定し、以前は利用できなかったデータセットの多くをインポートするユーティリティを提示します。
$\textit{lucie}$は、最も人気のあるデータセットのトップ100を使用して設計され、次の130でベンチマークされ、95.4%、$\textit{ucimlrepo}$は73.1%の成功率となった。
$\textit{lucie}$は98%のコードカバレッジを持つPyPI上のPythonパッケージとして利用できる。
関連論文リスト
- Efficient $1$-bit tensor approximations [1.104960878651584]
我々のアルゴリズムは、20ドルの擬似符号で効率よく符号付きカット分解を行う。
オープンテキストMistral-7B-v0.1大言語モデルの重み行列を50%の空間圧縮に近似する。
論文 参考訳(メタデータ) (2024-10-02T17:56:32Z) - Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Platypus: Quick, Cheap, and Powerful Refinement of LLMs [9.036192101676312]
プラティパス(英: Platypus)は、大規模言語モデル(Large Language Models)のファミリーである。
13B Platypusモデルは、$textita single$ A100 GPUで5時間で25kの質問を使ってトレーニングできる。
論文 参考訳(メタデータ) (2023-08-14T17:59:56Z) - Torch-Choice: A PyTorch Package for Large-Scale Choice Modelling with
Python [11.566791864440262]
$texttttorch-choice$はPythonとPyTorchを使ったフレキシブルで高速な選択モデリングのためのオープンソースライブラリである。
$textttChoiceDataset$は、データベースを柔軟かつメモリ効率よく管理するための、$textttChoiceDataset$データ構造を提供します。
論文 参考訳(メタデータ) (2023-04-04T16:00:48Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - $\texttt{py-irt}$: A Scalable Item Response Theory Library for Python [3.9828133571463935]
$textttpy-irt$はBayesian Item Response Theory(IRT)モデルを適合させるPythonライブラリである。
主題や項目の潜在特性を推定し、IRTタスクや理想的なポイントモデルでの使用に適しています。
論文 参考訳(メタデータ) (2022-03-02T18:09:46Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference [9.384801062680786]
ManyTypes4Pyは、機械学習(ML)ベースの型推論のための大きなPythonデータセットである。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-04-10T08:10:06Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z) - mvlearn: Multiview Machine Learning in Python [103.55817158943866]
mvlearnは、主要なマルチビュー機械学習メソッドを実装するPythonライブラリである。
パッケージはPython Package Index(PyPI)とcondaパッケージマネージャからインストールできる。
論文 参考訳(メタデータ) (2020-05-25T02:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。