論文の概要: A Data Aggregation Visualization System supported by Processing-in-Memory
- arxiv url: http://arxiv.org/abs/2503.08463v1
- Date: Tue, 11 Mar 2025 14:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:41.215863
- Title: A Data Aggregation Visualization System supported by Processing-in-Memory
- Title(参考訳): メモリ内処理によるデータ集約可視化システム
- Authors: Junyoung Kim, Madhulika Balakumar, Kenneth Ross,
- Abstract要約: DIVANは1次元の軸を自動的に周波数で正規化し、多数の2次元可視化を生成するシステムである。
DIVANは、パターンや相関、期待するもの、予期せぬものなどをハイライトする視覚化を生成する。
1億行32列のユースケースでは,約1分で4,960個の集約(それぞれサイズ128x128x128)を計算できる。
- 参考スコア(独自算出の注目度): 3.0723404270319685
- License:
- Abstract: Data visualization of aggregation queries is one of the most common ways of doing data exploration and data science as it can help identify correlations and patterns in the data. We propose DIVAN, a system that automatically normalizes the one-dimensional axes by frequency to generate large numbers of two-dimensional visualizations. DIVAN normalizes the input data via binning to allocate more pixels to data values that appear more frequently in the dataset. DIVAN can utilize either CPUs or Processing-in-Memory (PIM) architectures to quickly calculate aggregates to support the visualizations. On real world datasets, we show that DIVAN generates visualizations that highlight patterns and correlations, some expected and some unexpected. By using PIM, we can calculate aggregates 45%-64% faster than modern CPUs on large datasets. For use cases with 100 million rows and 32 columns, our system is able to compute 4,960 aggregates (each of size 128x128x128) in about a minute.
- Abstract(参考訳): 集約クエリのデータ視覚化は、データ探索とデータサイエンスを行う最も一般的な方法の1つであり、データ内の相関やパターンを特定するのに役立つ。
DIVANは1次元の軸を自動的に周波数で正規化し、多数の2次元可視化を生成するシステムである。
DIVANは、バイナリを介して入力データを正規化し、データセットに頻繁に現れるデータ値により多くのピクセルを割り当てる。
DIVANはCPUまたはProcessing-in-Memory(PIM)アーキテクチャを使用して、視覚化をサポートするために集約を素早く計算できる。
実世界のデータセットでは、DIVANがパターンと相関、いくつかの期待と予期せぬ予測をハイライトする視覚化を生成することを示す。
PIMを使用することで、大規模なデータセット上の最新のCPUよりも集約を45%-64%高速に計算できる。
1億行32列のユースケースでは,約1分で4,960個の集約(それぞれサイズ128x128x128)を計算できる。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Dataopsy: Scalable and Fluid Visual Exploration using Aggregate Query
Sculpting [18.793265976651533]
本稿では,大規模多次元データに対する顔付きビジュアルクエリ技術であるアグリゲートクエリー彫刻(AQS)を提案する。
AQSは、データセット全体のアグリゲーションを表す単一の視覚マークで視覚化を開始する。
AQSのプロトタイプ実装であるDataopsyでAQSを検証する。
論文 参考訳(メタデータ) (2023-08-05T01:51:22Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Graph Convolutional Embeddings for Recommender Systems [67.5973695167534]
本研究では,N-Partiteグラフのユーザ-item-contextインタラクションを処理するグラフ畳み込み層を提案する。
より具体的には、ユーザ-item-contextインタラクションを処理するN-partiteグラフのグラフ畳み込み層を定義する。
論文 参考訳(メタデータ) (2021-03-05T10:46:16Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Measures of Complexity for Large Scale Image Datasets [0.3655021726150368]
本研究では,データセットの複雑さを計測する比較的単純な手法のシリーズを構築する。
我々は,自動運転研究コミュニティであるCityscapes,IDD,BDD,Vistaの4つのデータセットを用いて分析を行った。
エントロピーに基づくメトリクスを用いて、これらのデータセットのランク順の複雑さを示し、ディープラーニングに関して確立されたランク順と比較する。
論文 参考訳(メタデータ) (2020-08-10T21:54:23Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。