Fugu-MT 論文翻訳(概要): ScaleViz: Scaling Visualization Recommendation Models on Large Data

論文の概要: ScaleViz: Scaling Visualization Recommendation Models on Large Data

arxiv url: http://arxiv.org/abs/2411.18657v1
Date: Wed, 27 Nov 2024 08:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.592736
Title: ScaleViz: Scaling Visualization Recommendation Models on Large Data
Title（参考訳）: ScaleViz: 大規模データによる可視化レコメンデーションモデルのスケーリング
Authors: Ghazi Shazan Ahmad, Shubham Agarwal, Subrata Mitra, Ryan Rossi, Manav Doshi, Vibhor Porwal, Syam Manoj Kumar Paila,
Abstract要約: 本稿では,与えられたvis-recモデルと時間予算をユーザから取り出す新しい強化学習(RL)フレームワークを提案する。提案手法の有効性を示すため,導入誤差を極端に少なく抑える方法を提案する。
参考スコア（独自算出の注目度）: 5.673547920282187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated visualization recommendations (vis-rec) help users to derive crucial insights from new datasets. Typically, such automated vis-rec models first calculate a large number of statistics from the datasets and then use machine-learning models to score or classify multiple visualizations choices to recommend the most effective ones, as per the statistics. However, state-of-the art models rely on very large number of expensive statistics and therefore using such models on large datasets become infeasible due to prohibitively large computational time, limiting the effectiveness of such techniques to most real world complex and large datasets. In this paper, we propose a novel reinforcement-learning (RL) based framework that takes a given vis-rec model and a time-budget from the user and identifies the best set of input statistics that would be most effective while generating the visual insights within a given time budget, using the given model. Using two state-of-the-art vis-rec models applied on three large real-world datasets, we show the effectiveness of our technique in significantly reducing time-to visualize with very small amount of introduced error. Our approach is about 10X times faster compared to the baseline approaches that introduce similar amounts of error.
Abstract（参考訳）: 自動可視化レコメンデーション(vis-rec)は、ユーザが新しいデータセットから重要な洞察を引き出すのに役立つ。通常、このような自動化されたvis-recモデルは、まずデータセットから多数の統計を計算し、次に機械学習モデルを使用して複数の視覚化選択をスコア付けまたは分類し、最も効果的な統計を推奨する。しかし、最先端のモデルは非常に多くの高価な統計モデルに依存しているので、大規模なデータセットにそのようなモデルを使用することは、非常に大きな計算時間のために実現不可能となり、そのような技術の有効性は、ほとんどの実世界の複雑で大規模なデータセットに限られる。本稿では,与えられたビジレックモデルと時間予算をユーザから取り出して,与えられた時間予算内で視覚的洞察を生成しながら,最も有効な入力統計の集合を同定する,新しい強化学習(RL)ベースのフレームワークを提案する。 3つの大規模実世界のデータセットに適用した2つの最先端のvis-recモデルを用いて,本手法の有効性を示す。我々のアプローチは、類似のエラーを発生させるベースラインアプローチに比べて約10倍高速である。

関連論文リスト

Scaling Laws of Global Weather Models [57.27583619011988]
本稿では,モデル性能(検証損失)とモデルサイズ,データセットサイズ,計算予算の3つの主要な要因について検討する。様々なモデルにおいて、Auroraは最も強力なデータスケーリングの挙動を示す。我々の計算-最適分析は、固定された計算予算の下で、長いトレーニング期間にリソースを割り当てると、モデルサイズの増加よりもパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2026-02-26T12:57:38Z)
BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文参考訳（メタデータ） (2025-08-13T13:39:17Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Enhancing User Sequence Modeling through Barlow Twins-based Self-Supervised Learning [17.299357794051797]
本稿では,最先端のSSL手法であるBarlow Twinsを,適切な拡張手法を取り入れたユーザシーケンスモデリングに適用することを提案する。提案手法は,大規模な負のサンプルバッチの必要性を軽減し,より小さなバッチサイズと限られたラベル付きデータによる効果的な表現学習を実現することを目的としている。
論文参考訳（メタデータ） (2025-05-02T02:04:52Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文参考訳（メタデータ） (2023-09-14T08:07:49Z)
Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文参考訳（メタデータ） (2023-03-30T17:30:42Z)
VizAI : Selecting Accurate Visualizations of Numerical Data [2.6039035727217907]
VizAIは、データの様々な統計特性を最初に生成する生成的識別フレームワークである。これは、視覚化されるデータの真の統計に最もよく一致する視覚化を選択する識別モデルにリンクされている。 VizAIは、最小限の監督で容易に訓練でき、様々な監督レベルの設定に適応できる。
論文参考訳（メタデータ） (2021-11-07T22:05:44Z)
Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文参考訳（メタデータ） (2021-03-12T09:53:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。