論文の概要: CluBear: A Subsampling Package for Interactive Statistical Analysis with
Massive Data on A Single Machine
- arxiv url: http://arxiv.org/abs/2312.17065v1
- Date: Thu, 28 Dec 2023 15:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:50:49.503647
- Title: CluBear: A Subsampling Package for Interactive Statistical Analysis with
Massive Data on A Single Machine
- Title(参考訳): clubear:単一マシン上の膨大なデータを用いた対話型統計解析のためのサブサンプリングパッケージ
- Authors: Ke Xu, Yingqiu Zhu, Yijing Liu and Hansheng Wang
- Abstract要約: CluBearはPythonベースの、インタラクティブな大規模データ分析のためのオープンソースパッケージである。
これにより、ユーザーは従来のシングルコンピュータシステムだけで、大量のデータを便利かつインタラクティブに統計分析することができる。
- 参考スコア(独自算出の注目度): 7.136836324610205
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This article introduces CluBear, a Python-based open-source package for
interactive massive data analysis. The key feature of CluBear is that it
enables users to conduct convenient and interactive statistical analysis of
massive data with only a traditional single-computer system. Thus, CluBear
provides a cost-effective solution when mining large-scale datasets. In
addition, the CluBear package integrates many commonly used statistical and
graphical tools, which are useful for most commonly encountered data analysis
tasks.
- Abstract(参考訳): この記事では、インタラクティブな大規模データ分析のためのPythonベースのオープンソースパッケージであるCluBearを紹介します。
CluBearの重要な特徴は、ユーザが従来のシングルコンピュータシステムだけで、大量のデータを便利かつインタラクティブに統計分析できることだ。
したがって、CluBearは大規模なデータセットをマイニングする際のコスト効率の良いソリューションを提供する。
さらに、CluBearパッケージには多くの一般的な統計ツールとグラフィカルツールが組み込まれている。
関連論文リスト
- RobPy: a Python Package for Robust Statistical Methods [1.2233362977312945]
RobPyはPythonで幅広い堅牢なメソッドを提供し、NumPy、SciPy、Scikit-learnといった既存のライブラリ上に構築されている。
本稿では、RobPyパッケージの構造を示し、実例を通してその機能を実証し、その機能を他の統計ソフトウェアにおける既存の実装と比較する。
論文 参考訳(メタデータ) (2024-11-04T10:27:30Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in
Bangla with Multi-Feature and Multi-Modal Analysis [0.51795041186793]
本研究では,253,070個のデータポイントからなる大規模マルチモーダルなBangla YouTubeクリックベイトデータセットを提案する。
データセットには、メタデータ、一次コンテンツ、エンゲージメント統計、個々のビデオのラベルに分類される18の多様な機能が含まれている。
論文 参考訳(メタデータ) (2023-10-13T13:25:16Z) - Plotly-Resampler: Effective Visual Analytics for Large Time Series [1.0756377625425109]
Plotly-ResamplerはPlotlyのPythonバインディング用のアドオンで、インタラクティブなツールキットの上にラインチャートのスケーラビリティを向上する。
Plotly-Resamplerのフレキシブルなデータアグリゲーション機能は、新しいアグリゲーション技術の研究への道を開く。
論文 参考訳(メタデータ) (2022-06-17T16:12:55Z) - Towards Rich, Portable, and Large-Scale Pedestrian Data Collection [6.250018240133604]
本研究では,多様な環境における大規模データ収集を容易にする,ポータブルなデータ収集システムを提案する。
TBDの歩行者データセットである、進行中のデータ収集作業から、最初のデータセットのバッチを紹介します。
既存の歩行者データと比較すると、我々のデータセットには3つの要素がある: 計量空間に基礎を置く人間認証ラベル、トップダウンとビュービューの組み合わせ、社会的に適切な「ロボット」の存在下での自然主義的人間の行動。
論文 参考訳(メタデータ) (2022-03-03T19:28:10Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - PMLB v1.0: An open source dataset collection for benchmarking machine
learning methods [3.411023081233491]
PMLBの今回のリリースは、ひとつの場所に集約された新しい機械学習とデータサイエンスメソッドを評価するための、多種多様な公開ベンチマークデータセットの最大のコレクションを提供する。
PMLB用のPythonインターフェースとRインターフェースは、それぞれPython Package IndexとComprehensive R Archive Networkを通じてインストールできる。
論文 参考訳(メタデータ) (2020-11-30T19:21:44Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z) - WOR and $p$'s: Sketches for $\ell_p$-Sampling Without Replacement [75.12782480740822]
We design novel composable sketches for WOR $ell_p$ sample。
私たちのスケッチは、サンプルサイズと直線的にしか成長しないサイズです。
我々の方法は、最初に$p>1$の重要なレギュレーションでWORサンプリングを提供し、最初に$p>0$で署名された更新を処理する。
論文 参考訳(メタデータ) (2020-07-14T00:19:27Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。