Fugu-MT 論文翻訳(概要): DeepJoin: Joinable Table Discovery with Pre-trained Language Models

論文の概要: DeepJoin: Joinable Table Discovery with Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2212.07588v1
Date: Thu, 15 Dec 2022 02:40:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 16:25:34.173526
Title: DeepJoin: Joinable Table Discovery with Pre-trained Language Models
Title（参考訳）: DeepJoin: 事前トレーニングされた言語モデルによるテーブルディスカバリ
Authors: Yuyang Dong, Chuan Xiao, Takuma Nozawa, Masafumi Enomoto, Masafumi Oyamada
Abstract要約: 既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。 Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。 Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
参考スコア（独自算出の注目度）: 10.639106014582756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the usefulness in data enrichment for data analysis tasks, joinable table discovery has become an important operation in data lake management. Existing approaches target equi-joins, the most common way of combining tables for creating a unified view, or semantic joins, which tolerate misspellings and different formats to deliver more join results. They are either exact solutions whose running time is linear in the sizes of query column and target table repository or approximate solutions lacking precision. In this paper, we propose Deepjoin, a deep learning model for accurate and efficient joinable table discovery. Our solution is an embedding-based retrieval, which employs a pre-trained language model (PLM) and is designed as one framework serving both equi- and semantic joins. We propose a set of contextualization options to transform column contents to a text sequence. The PLM reads the sequence and is fine-tuned to embed columns to vectors such that columns are expected to be joinable if they are close to each other in the vector space. Since the output of the PLM is fixed in length, the subsequent search procedure becomes independent of the column size. With a state-of-the-art approximate nearest neighbor search algorithm, the search time is logarithmic in the repository size. To train the model, we devise the techniques for preparing training data as well as data augmentation. The experiments on real datasets demonstrate that by training on a small subset of a corpus, Deepjoin generalizes to large datasets and its precision consistently outperforms other approximate solutions'. Deepjoin is even more accurate than an exact solution to semantic joins when evaluated with labels from experts. Moreover, when equipped with a GPU, Deepjoin is up to two orders of magnitude faster than existing solutions.
Abstract（参考訳）: データ分析タスクでデータエンリッチメントが有用であるため、結合可能なテーブル発見はデータレイク管理において重要な操作となっている。既存のアプローチでは、統一ビューを作成するためにテーブルを結合する最も一般的な方法であるequi-join(リンク)、あるいはsemantic join(リンク)をターゲットにしている。実行時間がクエリ列とターゲットテーブルレポジトリのサイズで線形である厳密なソリューションか、精度の欠如した近似ソリューションのどちらかである。本稿では,正確かつ効率的な結合テーブル発見のための深層学習モデルであるdeepjoinを提案する。提案手法は,プレトレーニング言語モデル(PLM)を取り入れた埋め込み型検索であり,等価結合とセマンティック結合の両方を提供する1つのフレームワークとして設計されている。列の内容をテキストシーケンスに変換するためのコンテキスト化オプションセットを提案する。 PLMは列を読み出し、列をベクトルに埋め込むように微調整されるので、列がベクトル空間内で互いに近接しているときに結合可能であることが期待できる。 PLMの出力は長さが固定されているので、後続の探索手順は列サイズに依存しない。最先端に近い近接探索アルゴリズムでは、検索時間はリポジトリサイズで対数的である。モデルをトレーニングするために、トレーニングデータとデータ拡張を準備するためのテクニックを考案する。実際のデータセットに関する実験は、コーパスの小さなサブセットでトレーニングすることで、Deepjoinが大きなデータセットに一般化し、その精度が他の近似解よりも一貫して優れていることを示す。 Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。さらに、GPUを搭載した場合、Deepjoinは既存のソリューションよりも最大2桁高速である。

関連論文リスト

Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文参考訳（メタデータ） (2024-12-16T06:19:35Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
TablePuppet: A Generic Framework for Relational Federated Learning [27.274856376963356]
現在のフェデレーションラーニング(FL)は、分散トレーニングデータを単一のテーブルとして捉え、(行によって)水平または(列によって)垂直に分割する。このシナリオでは、トレーニングデータを取得するために、結合やユニオンのような複雑な操作が必要です。我々は,学習プロセスを2段階に分解するRFLの汎用フレームワークであるTablePuppetを提案し,(1)結合(LoJ)の学習,(2)結合(LoU)の学習の2段階を提案する。
論文参考訳（メタデータ） (2024-03-23T13:28:37Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
Relational Deep Learning: Graph Representation Learning on Relational Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文参考訳（メタデータ） (2023-12-07T18:51:41Z)
Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文参考訳（メタデータ） (2023-11-05T06:12:03Z)
Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文参考訳（メタデータ） (2023-03-14T17:59:59Z)
Flag Aggregator: Scalable Distributed Training under Failures and Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-02-12T06:38:30Z)
Embracing Structure in Data for Billion-Scale Semantic Product Search [14.962039276966319]
我々は、数十億の規模でダイアドニューラル埋め込みモデルを訓練し、展開するための原則的アプローチを提案する。実世界のデータセットの自然な構造を活用することで、両方の課題に効率的に対処できることが示される。
論文参考訳（メタデータ） (2021-10-12T16:14:13Z)
An Algorithm for Learning Smaller Representations of Models With Scarce Data [0.0]
本稿では,データセットが問題を完全に表現していない場合のバイナリ分類問題の解法を提案する。我々のアルゴリズムは、基礎となる分布の支持にある多様体をホモロジーに再構成することで機能する。
論文参考訳（メタデータ） (2020-10-15T19:17:51Z)
Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文参考訳（メタデータ） (2020-04-30T18:09:50Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)
TableQnA: Answering List Intent Queries With Web Tables [12.941073798838167]
我々は、HTMLテーブルでクエリの2つのクラスに答えることに集中する。既存のアプローチでは、候補者から回答を選択するために機械学習モデルを訓練している。構造認識マッチングを計算し、機械学習モデルを訓練する新機能を開発した。
論文参考訳（メタデータ） (2020-01-10T01:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。