論文の概要: CAE: Character-Level Autoencoder for Non-Semantic Relational Data Grouping
- arxiv url: http://arxiv.org/abs/2511.07657v1
- Date: Wed, 12 Nov 2025 01:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.413626
- Title: CAE: Character-Level Autoencoder for Non-Semantic Relational Data Grouping
- Title(参考訳): CAE:非意味的関係データグループ化のための文字レベルオートエンコーダ
- Authors: Veera V S Bhargav Nunna, Shinae Kang, Zheyuan Zhou, Virginia Wang, Sucharitha Boinapally, Michael Foley,
- Abstract要約: 本稿では,非意味的関係データセットにおいて,意味論的に同一の列を自動的に識別し,グループ化する新しい文字レベルオートエンコーダ(CAE)手法を提案する。
意味的解釈可能性の制限に苦しむ従来の自然言語処理(NLP)モデルとは異なり、我々の手法は固定辞書制約で文字レベルで動作する。
固定辞書サイズを維持することにより、メモリ要件とトレーニング時間の両方を著しく削減し、大規模産業データ環境の効率的な処理を可能にする。
- 参考スコア(独自算出の注目度): 0.9595254895337946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise relational databases increasingly contain vast amounts of non-semantic data - IP addresses, product identifiers, encoded keys, and timestamps - that challenge traditional semantic analysis. This paper introduces a novel Character-Level Autoencoder (CAE) approach that automatically identifies and groups semantically identical columns in non-semantic relational datasets by detecting column similarities based on data patterns and structures. Unlike conventional Natural Language Processing (NLP) models that struggle with limitations in semantic interpretability and out-of-vocabulary tokens, our approach operates at the character level with fixed dictionary constraints, enabling scalable processing of large-scale data lakes and warehouses. The CAE architecture encodes text representations of non-semantic relational table columns and extracts high-dimensional feature embeddings for data grouping. By maintaining a fixed dictionary size, our method significantly reduces both memory requirements and training time, enabling efficient processing of large-scale industrial data environments. Experimental evaluation demonstrates substantial performance gains: our CAE approach achieved 80.95% accuracy in top 5 column matching tasks across relational datasets, substantially outperforming traditional NLP approaches such as Bag of Words (47.62%). These results demonstrate its effectiveness for identifying and clustering identical columns in relational datasets. This work bridges the gap between theoretical advances in character-level neural architectures and practical enterprise data management challenges, providing an automated solution for schema understanding and data profiling of non-semantic industrial datasets at scale.
- Abstract(参考訳): エンタープライズリレーショナルデータベースには、IPアドレス、製品識別子、エンコードされたキー、タイムスタンプなど、膨大な量の非セマンティックデータが含まれており、従来のセマンティック分析に挑戦している。
本稿では,データパターンと構造に基づいて列類似性を検出することで,非意味的関係データセットにおいて意味論的に同一の列を自動的に識別し,グループ化する,文字レベルオートエンコーダ(CAE)アプローチを提案する。
意味的解釈可能性や語彙外トークンの制限に苦しむ従来の自然言語処理(NLP)モデルとは異なり、我々の手法は、固定辞書制約で文字レベルで動作し、大規模データレイクや倉庫のスケーラブルな処理を可能にする。
CAEアーキテクチャは、非意味的関係テーブル列のテキスト表現を符号化し、データグループ化のための高次元特徴埋め込みを抽出する。
固定辞書サイズを維持することにより、メモリ要件とトレーニング時間の両方を著しく削減し、大規模産業データ環境の効率的な処理を可能にする。
我々のCAEアプローチは、関係データセットにまたがるトップ5列マッチングタスクにおいて80.95%の精度を達成し、Bag of Words (47.62%)のような従来のNLPアプローチを大幅に上回った。
これらの結果から,関係データセットにおける同一列の同定とクラスタリングの有効性が示された。
この研究は、キャラクタレベルのニューラルアーキテクチャの理論的進歩と実践的なエンタープライズデータ管理の課題のギャップを埋め、大規模に非セマンティックな産業データセットのスキーマ理解とデータプロファイリングのための自動化されたソリューションを提供する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models [0.18416014644193068]
CRILMは、事前訓練された言語モデルを使用して、不足する値に対してコンテキストに関連のある記述子を作成する。
本評価は,MCAR,MAR,MNARシナリオにおけるCRILMの優れた性能とロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - DictLLM: Harnessing Key-Value Data Structures with Large Language Models
for Enhanced Medical Diagnostics [36.057925881268226]
DictLLMは、医学実験室報告のようなキーバリュー構造化データのモデリングを改善するために設計された革新的なフレームワークである。
診断自動生成のための総合的な実世界医療実験室レポートデータセットを用いて,様々なLCMモデルを用いた実験を行った。
論文 参考訳(メタデータ) (2024-02-18T07:10:02Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query
Attribute Value Extraction [57.56700153507383]
本稿では,QUEACOというEコマース検索におけるクエリ属性値の統一抽出システムを提案する。
NER フェーズでは、QUEACO は教師-学生ネットワークを採用し、強くラベル付けされたデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成する。
AVN フェーズでは、弱いラベル付けされたクエリ・ツー・アトリビュート・ビヘイビア・データを利用して、クエリーから表層属性値の正規化を行い、製品から標準形式へと変換する。
論文 参考訳(メタデータ) (2021-08-19T03:24:23Z) - DCoM: A Deep Column Mapper for Semantic Data Type Detection [0.0]
我々は,多入力NLPに基づくディープニューラルネットワークの集合であるDCoMを導入し,セマンティックデータ型を検出する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765個のデータ列上でDCoMを訓練する。
論文 参考訳(メタデータ) (2021-06-24T10:12:35Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。