論文の概要: Analytics Modelling over Multiple Datasets using Vector Embeddings
- arxiv url: http://arxiv.org/abs/2502.17060v3
- Date: Tue, 17 Jun 2025 15:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:19.937238
- Title: Analytics Modelling over Multiple Datasets using Vector Embeddings
- Title(参考訳): ベクトル埋め込みを用いた複数データセット上の解析モデル
- Authors: Andreas Loizou, Dimitrios Tsoumakos,
- Abstract要約: 本稿では、利用可能なデータセットからモデルを作成することにより、分析演算子の結果を推測する新しい手法を提案する。
実験により,本フレームワークの予測性能と実行時間と,他の最先端のモデリング演算子フレームワークとの比較を行った。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive increase in the data volume and dataset availability for analysts compels researchers to focus on data content and select high-quality datasets to enhance the performance of analytics operators. While selecting high-quality data significantly boosts analytical accuracy and efficiency, the exact process is very challenging given large-scale dataset availability. To address this issue, we propose a novel methodology that infers the outcome of analytics operators by creating a model from the available datasets. Each dataset is transformed to a vector embedding representation generated by our proposed deep learning model NumTabData2Vec, where similarity search are employed. Through experimental evaluation, we compare the prediction performance and the execution time of our framework to another state-of-the-art modelling operator framework, illustrating that our approach predicts analytics outcomes accurately, and increases speedup. Furthermore, our vectorization model can project different real-world scenarios to a lower vector embedding representation accurately and distinguish them.
- Abstract(参考訳): アナリストによるデータボリュームとデータセットの可用性の大幅な増加は、データコンテンツに集中し、分析オペレータのパフォーマンスを向上させるために高品質なデータセットを選択するために、研究者を補完する。
高品質なデータを選択することは、分析の精度と効率を大幅に向上させるが、大規模なデータセットの可用性を考えると、正確なプロセスは非常に困難である。
この問題に対処するために、利用可能なデータセットからモデルを作成することにより、分析演算子の結果を推測する新しい手法を提案する。
各データセットは、我々の提案したディープラーニングモデルであるNumTabData2Vecによって生成されたベクトル埋め込み表現に変換され、類似性検索が使用される。
実験により,本フレームワークの予測性能と実行時間を比較し,解析結果を精度良く予測し,高速化することを示した。
さらに,ベクトル化モデルにより,より低いベクトル埋め込み表現に異なる実世界のシナリオを投影し,それらを正確に識別することができる。
関連論文リスト
- Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。
本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:46:23Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-12T20:42:28Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - MEAT: Maneuver Extraction from Agent Trajectories [9.919575841909962]
本稿では,大規模データセットにおけるエージェントトラジェクトリからの操作を抽出する自動手法を提案する。
分類ネットワークのトレーニングには,結果の操作を使用できるが,広い軌跡データセット解析には,例を挙げる。
論文 参考訳(メタデータ) (2022-06-10T14:56:32Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Quantifying the Complexity of Standard Benchmarking Datasets for
Long-Term Human Trajectory Prediction [8.870188183999852]
本稿では,プロトタイプベースのデータセット表現から,データセットに含まれる情報量を定量化する手法を提案する。
複数の人の軌道予測ベンチマークデータセット上で,大規模複雑度解析を行う。
論文 参考訳(メタデータ) (2020-05-28T12:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。