論文の概要: Ember: No-Code Context Enrichment via Similarity-Based Keyless Joins
- arxiv url: http://arxiv.org/abs/2106.01501v1
- Date: Wed, 2 Jun 2021 23:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 15:57:53.593732
- Title: Ember: No-Code Context Enrichment via Similarity-Based Keyless Joins
- Title(参考訳): Ember: 類似性ベースのキーレス結合によるコードのコンテキスト拡張
- Authors: Sahaana Suri, Ihab F. Ilyas, Christopher R\'e, Theodoros Rekatsinas
- Abstract要約: 本研究では,キーレス結合を抽象化し,自動化してコンテキストエンリッチメントを一般化するシステムであるEmberを提案する。
Emberは、タスク固有の埋め込みに集約されたインデックスを構築することで、一般的なキーレスジョイン演算を可能にする。
最大で39%のリコールが可能だが、1行構成の変更はほとんどない。
- 参考スコア(独自算出の注目度): 15.823614075738162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured data, or data that adheres to a pre-defined schema, can suffer
from fragmented context: information describing a single entity can be
scattered across multiple datasets or tables tailored for specific business
needs, with no explicit linking keys (e.g., primary key-foreign key
relationships or heuristic functions). Context enrichment, or rebuilding
fragmented context, using keyless joins is an implicit or explicit step in
machine learning (ML) pipelines over structured data sources. This process is
tedious, domain-specific, and lacks support in now-prevalent no-code ML systems
that let users create ML pipelines using just input data and high-level
configuration files. In response, we propose Ember, a system that abstracts and
automates keyless joins to generalize context enrichment. Our key insight is
that Ember can enable a general keyless join operator by constructing an index
populated with task-specific embeddings. Ember learns these embeddings by
leveraging Transformer-based representation learning techniques. We describe
our core architectural principles and operators when developing Ember, and
empirically demonstrate that Ember allows users to develop no-code pipelines
for five domains, including search, recommendation and question answering, and
can exceed alternatives by up to 39% recall, with as little as a single line
configuration change.
- Abstract(参考訳): 単一のエンティティを記述する情報は、特定のビジネスニーズに合わせた複数のデータセットやテーブルに分散することができ、明示的なリンクキー(キーと外部のキーの関係やヒューリスティック関数など)は存在しない。
キーレスジョインを使用したコンテキスト強化あるいは断片化コンテキストの再構築は、構造化データソース上の機械学習(ML)パイプラインの暗黙的あるいは明示的なステップである。
このプロセスは退屈でドメイン固有であり、入力データと高レベルの設定ファイルだけでMLパイプラインを作成できる、今や普及しているノーコードMLシステムではサポートされていない。
そこで本稿では,キーレス結合を抽象化し,自動化してコンテキストエンリッチメントを一般化するシステムであるEmberを提案する。
私たちのキーとなる洞察は、Emberがタスク固有の埋め込みに集約されたインデックスを構築することで、一般的なキーレスジョイン演算を可能にすることです。
EmberはTransformerベースの表現学習技術を利用して、これらの埋め込みを学ぶ。
emberを開発する際のアーキテクチャの原則と運用者について説明し、emberが検索、推薦、質問応答を含む5つのドメインでコードなしのパイプラインを開発することができ、選択肢を最大39%リコールでき、1行構成の変更しかできないことを実証的に示します。
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery [1.6080795642111267]
本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。
これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。
ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。
これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。
論文 参考訳(メタデータ) (2024-05-16T13:17:14Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Parallel Instance Query Network for Named Entity Recognition [73.30174490672647]
名前付きエンティティ認識(NER)は自然言語処理の基本課題である。
最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。
本稿では,グローバルかつ学習可能なインスタンスクエリを並列に抽出するParallel Instance Query Network (PIQN)を提案する。
論文 参考訳(メタデータ) (2022-03-20T13:01:25Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - Mining Knowledge Graphs From Incident Reports [3.3395585414528663]
顧客から提出されたインシデント報告は、診断や緩和が簡単でないとほとんど構造化されていない。
我々は、共起エンティティペアからバイナリエンティティ関係を抽出し、スコアするアプローチを提案する。
知識グラフを自動的に構築し、グラフ内の暗黙の知識が、異なるインシデントに対する関連エンティティのランク付けに使用できることを示す。
論文 参考訳(メタデータ) (2021-01-15T04:15:26Z) - Petri Nets with Parameterised Data: Modelling and Verification (Extended
Version) [67.99023219822564]
我々は、カタログネットと呼ばれるカラーペトリネットの拡張を紹介し、研究し、このタイプのプロセスを捉える2つの重要な特徴を提供する。
我々は、新しい価値注入が特に扱いにくい機能であることを示し、それを改ざんするための戦略について議論する。
論文 参考訳(メタデータ) (2020-06-11T17:26:08Z) - Message Passing Query Embedding [4.035753155957698]
本稿では,クエリのグラフ表現を符号化するグラフニューラルネットワークを提案する。
モデルは、明示的な監督なしにエンティティタイプの概念を捉えたエンティティ埋め込みを学習することを示します。
論文 参考訳(メタデータ) (2020-02-06T17:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。