論文の概要: Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach
- arxiv url: http://arxiv.org/abs/2502.17060v1
- Date: Mon, 24 Feb 2025 11:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:59.933483
- Title: Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach
- Title(参考訳): 複数の未知のデータセット上のデータ解析予測:ベクトル埋め込みアプローチ
- Authors: Andreas Loizou, Dimitrios Tsoumakos,
- Abstract要約: 本稿では,クエリされたデータと類似したデータセットからモデルを作成することにより,解析演算子の結果を推定する新しい手法を提案する。
我々のモデルは、より低いベクトル埋め込み表現に異なる実世界のシナリオを投影し、それらを区別することができる。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License:
- Abstract: The massive increase in the data volume and dataset availability for analysts compels researchers to focus on data content and select high-quality datasets to enhance the performance of analytics operators. While selecting the highest quality data for analysis highly increases task accuracy and efficiency, it is still a hard task, especially when the number of available inputs is very large. To address this issue, we propose a novel methodology that infers the outcome of analytics operators by creating a model from datasets similar to the queried one. Dataset similarity is performed via projecting each dataset to a vector embedding representation. The vectorization process is performed using our proposed deep learning model NumTabData2Vec, which takes a whole dataset and projects it into a lower vector embedding representation space. Through experimental evaluation, we compare the prediction performance and the execution time of our framework to another state-of-the-art modelling operator framework, illustrating that our approach predicts analytics outcomes accurately. Furthermore, our vectorization model can project different real-world scenarios to a lower vector embedding representation and distinguish between them.
- Abstract(参考訳): アナリストによるデータボリュームとデータセットの可用性の大幅な増加は、データコンテンツに集中し、分析オペレータのパフォーマンスを向上させるために高品質なデータセットを選択するために、研究者を補完する。
分析のための最高の品質データを選択することは、タスクの正確さと効率を著しく向上させるが、特に利用可能な入力数が非常に多い場合、これは依然として難しい作業である。
この問題に対処するために,クエリされたデータと類似したデータセットからモデルを作成することにより,解析演算子の結果を推定する新しい手法を提案する。
データセットの類似性は、各データセットをベクトル埋め込み表現に投影することで実行される。
ベクトル化プロセスは,提案したディープラーニングモデルであるNumTabData2Vecを用いて実行され,データセット全体を取り込んで,より低いベクトル埋め込み表現空間に投影する。
実験的な評価により,我々のフレームワークの予測性能と実行時間と,他の最先端のモデリング演算子フレームワークとの比較を行い,分析結果を正確に予測できることを示した。
さらに、ベクトル化モデルは、より低いベクトル埋め込み表現に異なる実世界のシナリオを投影し、それらを区別することができる。
関連論文リスト
- Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。
本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:46:23Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-12T20:42:28Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - MEAT: Maneuver Extraction from Agent Trajectories [9.919575841909962]
本稿では,大規模データセットにおけるエージェントトラジェクトリからの操作を抽出する自動手法を提案する。
分類ネットワークのトレーニングには,結果の操作を使用できるが,広い軌跡データセット解析には,例を挙げる。
論文 参考訳(メタデータ) (2022-06-10T14:56:32Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Quantifying the Complexity of Standard Benchmarking Datasets for
Long-Term Human Trajectory Prediction [8.870188183999852]
本稿では,プロトタイプベースのデータセット表現から,データセットに含まれる情報量を定量化する手法を提案する。
複数の人の軌道予測ベンチマークデータセット上で,大規模複雑度解析を行う。
論文 参考訳(メタデータ) (2020-05-28T12:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。