論文の概要: DeepJoin: Joinable Table Discovery with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2212.07588v1
- Date: Thu, 15 Dec 2022 02:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:25:34.173526
- Title: DeepJoin: Joinable Table Discovery with Pre-trained Language Models
- Title(参考訳): DeepJoin: 事前トレーニングされた言語モデルによるテーブルディスカバリ
- Authors: Yuyang Dong, Chuan Xiao, Takuma Nozawa, Masafumi Enomoto, Masafumi
Oyamada
- Abstract要約: 既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。
Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
- 参考スコア(独自算出の注目度): 10.639106014582756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the usefulness in data enrichment for data analysis tasks, joinable
table discovery has become an important operation in data lake management.
Existing approaches target equi-joins, the most common way of combining tables
for creating a unified view, or semantic joins, which tolerate misspellings and
different formats to deliver more join results. They are either exact solutions
whose running time is linear in the sizes of query column and target table
repository or approximate solutions lacking precision. In this paper, we
propose Deepjoin, a deep learning model for accurate and efficient joinable
table discovery. Our solution is an embedding-based retrieval, which employs a
pre-trained language model (PLM) and is designed as one framework serving both
equi- and semantic joins. We propose a set of contextualization options to
transform column contents to a text sequence. The PLM reads the sequence and is
fine-tuned to embed columns to vectors such that columns are expected to be
joinable if they are close to each other in the vector space. Since the output
of the PLM is fixed in length, the subsequent search procedure becomes
independent of the column size. With a state-of-the-art approximate nearest
neighbor search algorithm, the search time is logarithmic in the repository
size. To train the model, we devise the techniques for preparing training data
as well as data augmentation. The experiments on real datasets demonstrate that
by training on a small subset of a corpus, Deepjoin generalizes to large
datasets and its precision consistently outperforms other approximate
solutions'. Deepjoin is even more accurate than an exact solution to semantic
joins when evaluated with labels from experts. Moreover, when equipped with a
GPU, Deepjoin is up to two orders of magnitude faster than existing solutions.
- Abstract(参考訳): データ分析タスクでデータエンリッチメントが有用であるため、結合可能なテーブル発見はデータレイク管理において重要な操作となっている。
既存のアプローチでは、統一ビューを作成するためにテーブルを結合する最も一般的な方法であるequi-join(リンク)、あるいはsemantic join(リンク)をターゲットにしている。
実行時間がクエリ列とターゲットテーブルレポジトリのサイズで線形である厳密なソリューションか、精度の欠如した近似ソリューションのどちらかである。
本稿では,正確かつ効率的な結合テーブル発見のための深層学習モデルであるdeepjoinを提案する。
提案手法は,プレトレーニング言語モデル(PLM)を取り入れた埋め込み型検索であり,等価結合とセマンティック結合の両方を提供する1つのフレームワークとして設計されている。
列の内容をテキストシーケンスに変換するためのコンテキスト化オプションセットを提案する。
PLMは列を読み出し、列をベクトルに埋め込むように微調整されるので、列がベクトル空間内で互いに近接しているときに結合可能であることが期待できる。
PLMの出力は長さが固定されているので、後続の探索手順は列サイズに依存しない。
最先端に近い近接探索アルゴリズムでは、検索時間はリポジトリサイズで対数的である。
モデルをトレーニングするために、トレーニングデータとデータ拡張を準備するためのテクニックを考案する。
実際のデータセットに関する実験は、コーパスの小さなサブセットでトレーニングすることで、Deepjoinが大きなデータセットに一般化し、その精度が他の近似解よりも一貫して優れていることを示す。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
さらに、GPUを搭載した場合、Deepjoinは既存のソリューションよりも最大2桁高速である。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - TablePuppet: A Generic Framework for Relational Federated Learning [27.274856376963356]
現在のフェデレーションラーニング(FL)は、分散トレーニングデータを単一のテーブルとして捉え、(行によって)水平または(列によって)垂直に分割する。
このシナリオでは、トレーニングデータを取得するために、結合やユニオンのような複雑な操作が必要です。
我々は,学習プロセスを2段階に分解するRFLの汎用フレームワークであるTablePuppetを提案し,(1)結合(LoJ)の学習,(2)結合(LoU)の学習の2段階を提案する。
論文 参考訳(メタデータ) (2024-03-23T13:28:37Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。
本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。
本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文 参考訳(メタデータ) (2023-11-05T06:12:03Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z) - Flag Aggregator: Scalable Distributed Training under Failures and
Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。
計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。
これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。
この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-02-12T06:38:30Z) - Embracing Structure in Data for Billion-Scale Semantic Product Search [14.962039276966319]
我々は、数十億の規模でダイアドニューラル埋め込みモデルを訓練し、展開するための原則的アプローチを提案する。
実世界のデータセットの自然な構造を活用することで、両方の課題に効率的に対処できることが示される。
論文 参考訳(メタデータ) (2021-10-12T16:14:13Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z) - TableQnA: Answering List Intent Queries With Web Tables [12.941073798838167]
我々は、HTMLテーブルでクエリの2つのクラスに答えることに集中する。
既存のアプローチでは、候補者から回答を選択するために機械学習モデルを訓練している。
構造認識マッチングを計算し、機械学習モデルを訓練する新機能を開発した。
論文 参考訳(メタデータ) (2020-01-10T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。