Fugu-MT 論文翻訳(概要): Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach

論文の概要: Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach

arxiv url: http://arxiv.org/abs/2502.17060v1
Date: Mon, 24 Feb 2025 11:21:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.535877
Title: Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach
Title（参考訳）: 複数の未知のデータセット上のデータ解析予測:ベクトル埋め込みアプローチ
Authors: Andreas Loizou, Dimitrios Tsoumakos,
Abstract要約: 本稿では,クエリされたデータと類似したデータセットからモデルを作成することにより,解析演算子の結果を推定する新しい手法を提案する。我々のモデルは、より低いベクトル埋め込み表現に異なる実世界のシナリオを投影し、それらを区別することができる。
参考スコア（独自算出の注目度）: 0.3683202928838613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The massive increase in the data volume and dataset availability for analysts compels researchers to focus on data content and select high-quality datasets to enhance the performance of analytics operators. While selecting the highest quality data for analysis highly increases task accuracy and efficiency, it is still a hard task, especially when the number of available inputs is very large. To address this issue, we propose a novel methodology that infers the outcome of analytics operators by creating a model from datasets similar to the queried one. Dataset similarity is performed via projecting each dataset to a vector embedding representation. The vectorization process is performed using our proposed deep learning model NumTabData2Vec, which takes a whole dataset and projects it into a lower vector embedding representation space. Through experimental evaluation, we compare the prediction performance and the execution time of our framework to another state-of-the-art modelling operator framework, illustrating that our approach predicts analytics outcomes accurately. Furthermore, our vectorization model can project different real-world scenarios to a lower vector embedding representation and distinguish between them.
Abstract（参考訳）: アナリストによるデータボリュームとデータセットの可用性の大幅な増加は、データコンテンツに集中し、分析オペレータのパフォーマンスを向上させるために高品質なデータセットを選択するために、研究者を補完する。分析のための最高の品質データを選択することは、タスクの正確さと効率を著しく向上させるが、特に利用可能な入力数が非常に多い場合、これは依然として難しい作業である。この問題に対処するために,クエリされたデータと類似したデータセットからモデルを作成することにより,解析演算子の結果を推定する新しい手法を提案する。データセットの類似性は、各データセットをベクトル埋め込み表現に投影することで実行される。ベクトル化プロセスは,提案したディープラーニングモデルであるNumTabData2Vecを用いて実行され,データセット全体を取り込んで,より低いベクトル埋め込み表現空間に投影する。実験的な評価により,我々のフレームワークの予測性能と実行時間と,他の最先端のモデリング演算子フレームワークとの比較を行い,分析結果を正確に予測できることを示した。さらに、ベクトル化モデルは、より低いベクトル埋め込み表現に異なる実世界のシナリオを投影し、それらを区別することができる。

関連論文リスト

Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading [3.7723788828505125]
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
論文参考訳（メタデータ） (2025-08-19T05:45:02Z)
RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-06-26T06:28:56Z)
Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文参考訳（メタデータ） (2025-02-16T11:46:23Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。 RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文参考訳（メタデータ） (2024-10-12T20:42:28Z)
PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文参考訳（メタデータ） (2024-09-04T11:19:17Z)
UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文参考訳（メタデータ） (2024-03-22T10:36:50Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Comparative Analysis of Transformers for Modeling Tabular Data: A Casestudy using Industry Scale Dataset [1.0758036046280266]
この研究は、American Expressの合成データセットとデフォルト予測Kaggleデータセット(2022)の両方を用いて、様々なトランスフォーマーベースのモデルを広範囲に検証する。本稿では、最適データ前処理に関する重要な知見を提示し、事前学習と直接教師付き学習法を比較し、分類的特徴と数値的特徴を管理するための戦略について議論し、計算資源と性能のトレードオフを強調する。
論文参考訳（メタデータ） (2023-11-24T08:16:39Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。 or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文参考訳（メタデータ） (2023-07-05T17:33:41Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文参考訳（メタデータ） (2022-08-01T18:38:05Z)
MEAT: Maneuver Extraction from Agent Trajectories [9.919575841909962]
本稿では,大規模データセットにおけるエージェントトラジェクトリからの操作を抽出する自動手法を提案する。分類ネットワークのトレーニングには,結果の操作を使用できるが,広い軌跡データセット解析には,例を挙げる。
論文参考訳（メタデータ） (2022-06-10T14:56:32Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Quantifying the Complexity of Standard Benchmarking Datasets for Long-Term Human Trajectory Prediction [8.870188183999852]
本稿では,プロトタイプベースのデータセット表現から,データセットに含まれる情報量を定量化する手法を提案する。複数の人の軌道予測ベンチマークデータセット上で,大規模複雑度解析を行う。
論文参考訳（メタデータ） (2020-05-28T12:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。