論文の概要: ScaleViz: Scaling Visualization Recommendation Models on Large Data
- arxiv url: http://arxiv.org/abs/2411.18657v1
- Date: Wed, 27 Nov 2024 08:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:11.433290
- Title: ScaleViz: Scaling Visualization Recommendation Models on Large Data
- Title(参考訳): ScaleViz: 大規模データによる可視化レコメンデーションモデルのスケーリング
- Authors: Ghazi Shazan Ahmad, Shubham Agarwal, Subrata Mitra, Ryan Rossi, Manav Doshi, Vibhor Porwal, Syam Manoj Kumar Paila,
- Abstract要約: 本稿では,与えられたvis-recモデルと時間予算をユーザから取り出す新しい強化学習(RL)フレームワークを提案する。
提案手法の有効性を示すため,導入誤差を極端に少なく抑える方法を提案する。
- 参考スコア(独自算出の注目度): 5.673547920282187
- License:
- Abstract: Automated visualization recommendations (vis-rec) help users to derive crucial insights from new datasets. Typically, such automated vis-rec models first calculate a large number of statistics from the datasets and then use machine-learning models to score or classify multiple visualizations choices to recommend the most effective ones, as per the statistics. However, state-of-the art models rely on very large number of expensive statistics and therefore using such models on large datasets become infeasible due to prohibitively large computational time, limiting the effectiveness of such techniques to most real world complex and large datasets. In this paper, we propose a novel reinforcement-learning (RL) based framework that takes a given vis-rec model and a time-budget from the user and identifies the best set of input statistics that would be most effective while generating the visual insights within a given time budget, using the given model. Using two state-of-the-art vis-rec models applied on three large real-world datasets, we show the effectiveness of our technique in significantly reducing time-to visualize with very small amount of introduced error. Our approach is about 10X times faster compared to the baseline approaches that introduce similar amounts of error.
- Abstract(参考訳): 自動可視化レコメンデーション(vis-rec)は、ユーザが新しいデータセットから重要な洞察を引き出すのに役立つ。
通常、このような自動化されたvis-recモデルは、まずデータセットから多数の統計を計算し、次に機械学習モデルを使用して複数の視覚化選択をスコア付けまたは分類し、最も効果的な統計を推奨する。
しかし、最先端のモデルは非常に多くの高価な統計モデルに依存しているので、大規模なデータセットにそのようなモデルを使用することは、非常に大きな計算時間のために実現不可能となり、そのような技術の有効性は、ほとんどの実世界の複雑で大規模なデータセットに限られる。
本稿では,与えられたビジレックモデルと時間予算をユーザから取り出して,与えられた時間予算内で視覚的洞察を生成しながら,最も有効な入力統計の集合を同定する,新しい強化学習(RL)ベースのフレームワークを提案する。
3つの大規模実世界のデータセットに適用した2つの最先端のvis-recモデルを用いて,本手法の有効性を示す。
我々のアプローチは、類似のエラーを発生させるベースラインアプローチに比べて約10倍高速である。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - VizAI : Selecting Accurate Visualizations of Numerical Data [2.6039035727217907]
VizAIは、データの様々な統計特性を最初に生成する生成的識別フレームワークである。
これは、視覚化されるデータの真の統計に最もよく一致する視覚化を選択する識別モデルにリンクされている。
VizAIは、最小限の監督で容易に訓練でき、様々な監督レベルの設定に適応できる。
論文 参考訳(メタデータ) (2021-11-07T22:05:44Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。