論文の概要: Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets
- arxiv url: http://arxiv.org/abs/2605.30289v1
- Date: Thu, 28 May 2026 17:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.640346
- Title: Statistical Embeddings for Similarity, Retrieval, and Interpretable Alignment of Numeric Tabular Datasets
- Title(参考訳): 数値タブラルデータセットの類似性,検索,解釈可能なアライメントのための統計的埋め込み
- Authors: M. Ross Kunz, John Merickel, Keith Wilson,
- Abstract要約: 提案手法は,構造化探索データ解析記述子による数値データセットの特徴付けを行う。
カノニカル相関解析(CCA)のペナル化された定式化は、スパースで解釈可能な可変レベル対応を復元するために用いられる。
この手法は、汎用ベンチマーク、材料情報学、核グレードのグラファイトのキャラクタリゼーションにまたがる15のデータセットで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numeric tabular datasets are the dominant data format in scientific practice, yet large language models lack native mechanisms for representing numeric datasets in a meaningful way across heterogeneous feature spaces. Existing approaches either target predictive modeling over individual datasets, which requires a shared set of variable definitions, or lack mechanisms for interpretable cross-dataset alignment. The proposed methodology characterizes numeric tabular datasets through structured exploratory data analysis descriptors, embeds those descriptors into a shared vector space using a pretrained sentence transformer, and quantifies cross-dataset similarity via Canonical Correlation Analysis (CCA). Furthermore, a penalized formulation of CCA is applied to recover sparse, interpretable variable-level correspondences between datasets, identifying which statistical descriptors or variable-level quantities drive cross-dataset alignment without requiring shared variable names or feature conventions. Differential privacy is optionally applied to the descriptor set prior to embedding, supporting deployment in sensitive data contexts without requiring access to raw observations at time of comparison. The methodology is evaluated across 15 datasets spanning general-purpose benchmarks, materials informatics, and nuclear-grade graphite characterization. Results demonstrate a total P@1 score of 0.9, with known nearest-neighbor retrieval and cluster structure remaining robust across embedding ablations and differential privacy budgets. The proposed framework provides a principled pathway for integrating heterogeneous numeric data into retrieval-augmented generation pipelines while preserving statistical context, with direct applications to data-driven algorithm selection and simulation model initialization for unknown datasets.
- Abstract(参考訳): 数値表データセットは科学的な実践において支配的なデータフォーマットであるが、大きな言語モデルは、異種の特徴空間をまたいで意味のある方法で数値データセットを表現するためのネイティブなメカニズムを欠いている。
既存のアプローチでは、変数定義の共有を必要とする個々のデータセットよりも予測モデリングをターゲットとするか、あるいは、解釈可能なクロスデータセットアライメントのメカニズムが欠如している。
提案手法は,構造化探索データ解析記述子を用いて数値表層データセットを特徴付け,事前訓練文変換器を用いてそれらの記述子を共有ベクトル空間に埋め込み,正準相関解析(CCA)によりデータセット間の類似性を定量化する。
さらに、CCAのペナル化された定式化を適用して、データセット間のスパースで解釈可能な可変レベル対応を復元し、どの統計記述子または可変レベルの量が共有変数名や特徴規則を必要とせずにデータセット間のアライメントを駆動するかを特定する。
差分プライバシーは、埋め込み前に設定されたディスクリプタにオプションで適用される。
この手法は、汎用ベンチマーク、材料情報学、核グレードのグラファイトのキャラクタリゼーションにまたがる15のデータセットで評価される。
その結果、P@1スコアは0.9で、最も近い隣の検索とクラスタ構造は、埋め込みエイブレーションと差分プライバシー予算の間で頑健なままであった。
提案フレームワークは、未知のデータセットに対するデータ駆動アルゴリズムの選択とシミュレーションモデル初期化への直接的な適用を伴い、統計的コンテキストを保ちながら、不均一な数値データを検索強化された生成パイプラインに統合するための原則化された経路を提供する。
関連論文リスト
- Beyond Statistical Co-occurrence: Unlocking Intrinsic Semantics for Tabular Data Clustering [52.97486694817375]
本稿では,TagCC(Tabular-Augmented Contrastive Clustering)を提案する。
TagCCは、セマンティック・アウェア・トランスフォーメーションを通じて、基礎となるデータセマンティクスをテキストアンカーに蒸留する。
クラスタリングの目的と共同で最適化されており、学習した表現がセマンティックに一貫性があり、クラスタリングに親しみやすいことを保証する。
論文 参考訳(メタデータ) (2026-04-13T00:25:22Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Tunable correlation retention: A statistical method for generating synthetic data [0.0]
与えられたデータセットから統計的に代表的な合成データを生成する手法を提案する。
本手法の主な目的は,生成したデータに対して,原データに存在する機能間相関を模倣することである。
我々は,Pearson相関行列を用いてデータセットを,解像度と相関深さの異なるレベルと比較することにより評価した。
論文 参考訳(メタデータ) (2024-03-03T10:35:46Z) - Comparative Study of Inference Methods for Interpolative Decomposition [4.913248451323163]
補間分解(ID)学習のための自動関係決定(ARD)を用いた確率モデルを提案する。
CCLE $EC50$, CCLE $IC50$, Gene Body Methylation, promoteder Methylation datasets with different size, and dimensions。
論文 参考訳(メタデータ) (2022-06-29T11:37:05Z) - Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell
Receptor Datasets [0.0]
既存の統計分類器を変形させないデータを扱う手法について述べる。
i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタスをラベル付けしたTCRレパートリーのデータセットについて検討した。
論文 参考訳(メタデータ) (2021-03-18T18:39:14Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z) - Meta-analysis of heterogeneous data: integrative sparse regression in
high-dimensions [21.162280861396205]
本稿では,データソースが類似しているが識別できない高次元環境におけるメタ分析の課題について考察する。
異質性の存在下での解釈可能性と統計的効率を重視したグローバルパラメータを導入する。
いくつかの異なる癌細胞株を含む大規模薬物治療データセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2019-12-26T20:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。