論文の概要: Demonstration of Panda: A Weakly Supervised Entity Matching System
- arxiv url: http://arxiv.org/abs/2106.10821v1
- Date: Mon, 21 Jun 2021 03:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:12:14.037557
- Title: Demonstration of Panda: A Weakly Supervised Entity Matching System
- Title(参考訳): Pandaのデモ: かなり監視されたエンティティマッチングシステム
- Authors: Renzhi Wu, Prem Sakala, Peng Li, Xu Chu, Yeye He
- Abstract要約: Pandaは、エンティティマッチングに特化して設計された弱教師付きシステムである。
Panda は Snorkel と同じラベリング関数の抽象化を使用しており、そこではラベル付け関数 (LF) がユーザが提供するプログラムである。
Pandaの統合開発環境(IDE)は、モダンなブラウザアーキテクチャに存在している。
- 参考スコア(独自算出の注目度): 14.828592536955036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity matching (EM) refers to the problem of identifying tuple pairs in one
or more relations that refer to the same real world entities. Supervised
machine learning (ML) approaches, and deep learning based approaches in
particular, typically achieve state-of-the-art matching results. However, these
approaches require many labeled examples, in the form of matching and
non-matching pairs, which are expensive and time-consuming to label. In this
paper, we introduce Panda, a weakly supervised system specifically designed for
EM. Panda uses the same labeling function abstraction as Snorkel, where
labeling functions (LF) are user-provided programs that can generate large
amounts of (somewhat noisy) labels quickly and cheaply, which can then be
combined via a labeling model to generate accurate final predictions. To
support users developing LFs for EM, Panda provides an integrated development
environment (IDE) that lives in a modern browser architecture. Panda's IDE
facilitates the development, debugging, and life-cycle management of LFs in the
context of EM tasks, similar to how IDEs such as Visual Studio or Eclipse excel
in general-purpose programming. Panda's IDE includes many novel features
purpose-built for EM, such as smart data sampling, a builtin library of EM
utility functions, automatically generated LFs, visual debugging of LFs, and
finally, an EM-specific labeling model. We show in this demo that Panda IDE can
greatly accelerate the development of high-quality EM solutions using weak
supervision.
- Abstract(参考訳): エンティティマッチング(em)は、同じ現実世界のエンティティを参照する1つ以上の関係においてタプルペアを識別する問題を指す。
Supervised Machine Learning(ML)アプローチ、特にディープラーニングベースのアプローチは、通常、最先端のマッチング結果を達成する。
しかし、これらのアプローチには多くのラベル付き例が必要であり、マッチングと非マッチングペアという形でラベル付けには高価で時間がかかる。
本稿では,EM用に設計された弱教師付きシステムであるPandaを紹介する。
Panda は Snorkel と同じラベリング関数の抽象化を用いており、ラベル付け関数 (LF) は大量のラベルを迅速かつ安価に生成できるユーザが提供するプログラムであり、ラベル付けモデルを使って正確な最終的な予測を生成することができる。
Pandaは、ユーザがEM用のLFを開発するのをサポートするため、モダンなブラウザアーキテクチャで動く統合開発環境(IDE)を提供する。
PandaのIDEは、汎用プログラミングにおいてVisual StudioやEclipseのようなIDEが優れているのと同じように、EMタスクのコンテキストにおけるLFの開発、デバッグ、ライフサイクル管理を容易にする。
PandaのIDEには、スマートデータサンプリング、EMユーティリティ関数の組み込みライブラリ、自動生成されたLF、LFのビジュアルデバッギング、最後にEM固有のラベルモデルなど、EM用に構築された多くの新機能が含まれている。
このデモでは、Panda IDEが弱い監督力を使って高品質なEMソリューションの開発を大幅に加速できることを示す。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization [63.55408755562274]
審査用大言語モデル PandaLM は、いくつかの大きな言語モデルが与えられた優れたモデルを区別するために訓練されている。
PandaLMは、相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。
PandaLMはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。
論文 参考訳(メタデータ) (2023-06-08T10:41:56Z) - Disambiguated Attention Embedding for Multi-Instance Partial-Label
Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。
既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。
本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T13:25:17Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - MEGAnno: Exploratory Labeling for NLP in Computational Notebooks [9.462926987075122]
本稿では,NLP実践者と研究者を対象とした新しいアノテーションフレームワークMEGAnnoを紹介する。
MEGAnnoを使えば、ユーザーは高度な検索機能と対話型提案機能を通じてデータを探索できる。
我々は,MEGAnnoのフレキシブル,探索的,効率的,シームレスなラベル付け体験を感情分析のユースケースを通じて実証する。
論文 参考訳(メタデータ) (2023-01-08T19:16:22Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Ensemble Multi-Source Domain Adaptation with Pseudolabels [21.481053348141597]
マルチソースドメイン適応(MSDA)は、ターゲットデータラベルがない場合に、ターゲットデータセットとは異なる複数のソースデータセットを使用してモデルをトレーニングすることを目的としている。
既存のMSDAフレームワークは、各ドメインの条件分布 p(x|y) を考慮せずにデータを整列するので制限されている。
マルチソースドメイン適応のための新しい手法であるPseudolabels (EnMDAP) を用いたEnsemble Multi-source Domain Adaptationを提案する。
論文 参考訳(メタデータ) (2020-09-29T18:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。