論文の概要: SAVeD: Semantic Aware Version Discovery
- arxiv url: http://arxiv.org/abs/2511.17298v1
- Date: Fri, 21 Nov 2025 15:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.069641
- Title: SAVeD: Semantic Aware Version Discovery
- Title(参考訳): SAVeD: セマンティック・アウェアのバージョンディスカバリ
- Authors: Artem Frenk, Roee Shraga,
- Abstract要約: SAVeDは、構造化データセットのバージョンを特定するための対照的な学習ベースのフレームワークである。
我々の実験は、Semantic Versioning in Databases Benchmarkの5つの標準データセットにまたがっている。
- 参考スコア(独自算出の注目度): 6.220725124423482
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Our work introduces SAVeD (Semantically Aware Version Detection), a contrastive learning-based framework for identifying versions of structured datasets without relying on metadata, labels, or integration-based assumptions. SAVeD addresses a common challenge in data science of repeated labor due to a difficulty of similar work or transformations on datasets. SAVeD employs a modified SimCLR pipeline, generating augmented table views through random transformations (e.g., row deletion, encoding perturbations). These views are embedded via a custom transformer encoder and contrasted in latent space to optimize semantic similarity. Our model learns to minimize distances between augmented views of the same dataset and maximize those between unrelated tables. We evaluate performance using validation accuracy and separation, defined respectively as the proportion of correctly classified version/non-version pairs on a hold-out set, and the difference between average similarities of versioned and non-versioned tables (defined by a benchmark, and not provided to the model). Our experiments span five canonical datasets from the Semantic Versioning in Databases Benchmark, and demonstrate substantial gains post-training. SAVeD achieves significantly higher accuracy on completely unseen tables in, and a significant boost in separation scores, confirming its capability to distinguish semantically altered versions. Compared to untrained baselines and prior state-of-the-art dataset-discovery methods like Starmie, our custom encoder achieves competitive or superior results.
- Abstract(参考訳): SAVeD(Semantically Aware Version Detection)は、メタデータやラベル、統合ベースの仮定に頼ることなく、構造化データセットのバージョンを識別する、対照的な学習ベースのフレームワークである。
SAVeDは、データセット上の同様の作業や変換の難しさから、反復労働というデータサイエンスにおける一般的な課題に対処する。
SAVeDは修正されたSimCLRパイプラインを使用して、ランダムな変換(例えば、行削除、摂動の符号化)を通じて拡張テーブルビューを生成する。
これらのビューはカスタムトランスフォーマーエンコーダを介して埋め込まれ、セマンティックな類似性を最適化するために潜在空間で対比される。
我々のモデルは、同じデータセットの強化ビュー間の距離を最小化し、関係のないテーブル間の距離を最大化する。
検証精度と分離率を用いて評価を行い、それぞれ、ホールトアウトセット上の正しく分類されたバージョン/非バージョンペアの比率として定義し、バージョニングテーブルと非バージョンテーブルの平均類似度(ベンチマークで定義され、モデルに提供されない)の差を評価した。
我々の実験は、Semantic Versioning in Databases Benchmarkの5つの標準データセットにまたがっており、トレーニング後のかなりの増加を示している。
SAVeDは完全に見えないテーブルの精度が大幅に向上し、分離スコアが大幅に向上し、意味的に変更されたバージョンを識別する能力が確認された。
トレーニングされていないベースラインや、Starmieのような最先端のデータセット発見手法と比較して、私たちのカスタムエンコーダは、競争力や優れた結果を達成する。
関連論文リスト
- CAE: Character-Level Autoencoder for Non-Semantic Relational Data Grouping [0.9595254895337946]
本稿では,非意味的関係データセットにおいて,意味論的に同一の列を自動的に識別し,グループ化する新しい文字レベルオートエンコーダ(CAE)手法を提案する。
意味的解釈可能性の制限に苦しむ従来の自然言語処理(NLP)モデルとは異なり、我々の手法は固定辞書制約で文字レベルで動作する。
固定辞書サイズを維持することにより、メモリ要件とトレーニング時間の両方を著しく削減し、大規模産業データ環境の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2025-11-10T22:07:22Z) - TSVC:Tripartite Learning with Semantic Variation Consistency for Robust Image-Text Retrieval [11.874979105806243]
クロスモーダル検索は意味的関連性を通して異なるモダリティの下でデータをマップする。
既存のアプローチでは、データペアが適切に整合しており、広く存在するアノテーションノイズを無視していると暗黙的に仮定している。
本稿では,画像テキスト検索のための意味変化一貫性(TSVC)を用いた三部学習を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:05:08Z) - The SVHN Dataset Is Deceptive for Probabilistic Generative Models Due to
a Distribution Mismatch [12.542073306638988]
Street View House Numbersデータセットは、ディープラーニングにおける人気のあるベンチマークデータセットである。
SVHNデータセットのトレーニングセットとテストセットに公式の分割が同じ分布から引き出されていないことを警告する。
本稿では,SVHNが分類以外のタスクに使用される場合に,公式のトレーニングセットとテストセットを混合して再分割することを提案する。
論文 参考訳(メタデータ) (2023-10-30T15:38:31Z) - Aligning benchmark datasets for table structure recognition [10.323063834827416]
テーブル構造認識(TSR)のためのベンチマークデータセットは、それらが一貫していることを保証するために慎重に処理する必要がある。
本研究では,これらのベンチマークをx$removing errorと不整合に合わせることで,性能が大幅に向上することを示す。
全体として、我々の作業はベンチマーク処理のパフォーマンスや、潜在的に他のタスクにも重大な影響があると信じています。
論文 参考訳(メタデータ) (2023-03-01T18:20:24Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Hyperparameter Optimization with Differentiable Metafeatures [5.586191108738563]
DMFBS(diffariable Metafeature-based Surrogate)と呼ばれるクロスデータセットサロゲートモデルを提案する。
既存のモデルとは対照的に、DMFBS i) は微分可能なメタ機能抽出器を統合し、i) は新規なマルチタスク損失を用いて最適化される。
DMFBSをHPOの3つの大規模メタデータセットの最近のモデルと比較し、平均10%の改善でその性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-07T11:06:31Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。