Fugu-MT 論文翻訳(概要): Demonstration of Panda: A Weakly Supervised Entity Matching System

論文の概要: Demonstration of Panda: A Weakly Supervised Entity Matching System

arxiv url: http://arxiv.org/abs/2106.10821v1
Date: Mon, 21 Jun 2021 03:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-22 15:12:14.037557
Title: Demonstration of Panda: A Weakly Supervised Entity Matching System
Title（参考訳）: Pandaのデモ: かなり監視されたエンティティマッチングシステム
Authors: Renzhi Wu, Prem Sakala, Peng Li, Xu Chu, Yeye He
Abstract要約: Pandaは、エンティティマッチングに特化して設計された弱教師付きシステムである。 Panda は Snorkel と同じラベリング関数の抽象化を使用しており、そこではラベル付け関数 (LF) がユーザが提供するプログラムである。 Pandaの統合開発環境(IDE)は、モダンなブラウザアーキテクチャに存在している。
参考スコア（独自算出の注目度）: 14.828592536955036
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Entity matching (EM) refers to the problem of identifying tuple pairs in one or more relations that refer to the same real world entities. Supervised machine learning (ML) approaches, and deep learning based approaches in particular, typically achieve state-of-the-art matching results. However, these approaches require many labeled examples, in the form of matching and non-matching pairs, which are expensive and time-consuming to label. In this paper, we introduce Panda, a weakly supervised system specifically designed for EM. Panda uses the same labeling function abstraction as Snorkel, where labeling functions (LF) are user-provided programs that can generate large amounts of (somewhat noisy) labels quickly and cheaply, which can then be combined via a labeling model to generate accurate final predictions. To support users developing LFs for EM, Panda provides an integrated development environment (IDE) that lives in a modern browser architecture. Panda's IDE facilitates the development, debugging, and life-cycle management of LFs in the context of EM tasks, similar to how IDEs such as Visual Studio or Eclipse excel in general-purpose programming. Panda's IDE includes many novel features purpose-built for EM, such as smart data sampling, a builtin library of EM utility functions, automatically generated LFs, visual debugging of LFs, and finally, an EM-specific labeling model. We show in this demo that Panda IDE can greatly accelerate the development of high-quality EM solutions using weak supervision.
Abstract（参考訳）: エンティティマッチング(em)は、同じ現実世界のエンティティを参照する1つ以上の関係においてタプルペアを識別する問題を指す。 Supervised Machine Learning(ML)アプローチ、特にディープラーニングベースのアプローチは、通常、最先端のマッチング結果を達成する。しかし、これらのアプローチには多くのラベル付き例が必要であり、マッチングと非マッチングペアという形でラベル付けには高価で時間がかかる。本稿では,EM用に設計された弱教師付きシステムであるPandaを紹介する。 Panda は Snorkel と同じラベリング関数の抽象化を用いており、ラベル付け関数 (LF) は大量のラベルを迅速かつ安価に生成できるユーザが提供するプログラムであり、ラベル付けモデルを使って正確な最終的な予測を生成することができる。 Pandaは、ユーザがEM用のLFを開発するのをサポートするため、モダンなブラウザアーキテクチャで動く統合開発環境(IDE)を提供する。 PandaのIDEは、汎用プログラミングにおいてVisual StudioやEclipseのようなIDEが優れているのと同じように、EMタスクのコンテキストにおけるLFの開発、デバッグ、ライフサイクル管理を容易にする。 PandaのIDEには、スマートデータサンプリング、EMユーティリティ関数の組み込みライブラリ、自動生成されたLF、LFのビジュアルデバッギング、最後にEM固有のラベルモデルなど、EM用に構築された多くの新機能が含まれている。このデモでは、Panda IDEが弱い監督力を使って高品質なEMソリューションの開発を大幅に加速できることを示す。

関連論文リスト

The Semantic Architect: How FEAML Bridges Structured Data and LLMs for Multi-Label Tasks [12.329156266251838]
大規模言語モデル(LLM)に基づく既存の特徴工学手法はまだマルチラベル学習には適用されていない。複数ラベル分類のための自動特徴工学手法であるFEAMLを提案する。
論文参考訳（メタデータ） (2025-12-17T04:58:44Z)
Prompt Orchestration Markup Language [6.387927675038904]
POMLは、論理構造のためのコンポーネントベースのマークアップと、シームレスなデータ統合のための特別なタグを採用している。動的プロンプトのテンプレートと、バージョン管理とコラボレーションを改善するための包括的な開発者ツールキット(IDEサポート、SDK)が含まれている。複雑なアプリケーション統合(PomLink)と精度性能(TableQA)への影響を示す2つのケーススタディを通じてPOMLを検証する。
論文参考訳（メタデータ） (2025-08-19T15:37:29Z)
Automated Label Placement on Maps via Large Language Models [3.7553323195283697]
データ編集問題としてタスクを定式化するALP(Automatic label Placement)の新たなパラダイムを導入する。この方向を支援するため,実世界の地図上でALPを評価するためのベンチマークデータセットとして,MAPLEをキュレートした。我々は,MAPLE 上で4つのオープンソース LLM を評価し,各種ランドマークの全体的な性能と一般化を解析した。
論文参考訳（メタデータ） (2025-07-29T18:00:22Z)
LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL [14.677024710675838]
LinkAlignは、既存のベースラインを現実の環境に効果的に適応できる新しいフレームワークである。 SPIDERおよびBIRDベンチマークを用いて,本手法の性能評価を行った。 LinkAlignは、長いチェーン・オブ・プリーティングLPMを使用するモデルを除くモデルの中では最高である。
論文参考訳（メタデータ） (2025-03-24T11:53:06Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization [63.55408755562274]
審査用大言語モデル PandaLM は、いくつかの大きな言語モデルが与えられた優れたモデルを区別するために訓練されている。 PandaLMは、相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。 PandaLMはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。
論文参考訳（メタデータ） (2023-06-08T10:41:56Z)
Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T13:25:17Z)
Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文参考訳（メタデータ） (2023-05-05T09:58:40Z)
MEGAnno: Exploratory Labeling for NLP in Computational Notebooks [9.462926987075122]
本稿では,NLP実践者と研究者を対象とした新しいアノテーションフレームワークMEGAnnoを紹介する。 MEGAnnoを使えば、ユーザーは高度な検索機能と対話型提案機能を通じてデータを探索できる。我々は,MEGAnnoのフレキシブル,探索的,効率的,シームレスなラベル付け体験を感情分析のユースケースを通じて実証する。
論文参考訳（メタデータ） (2023-01-08T19:16:22Z)
Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文参考訳（メタデータ） (2022-11-13T17:57:07Z)
Leveraging Instance Features for Label Aggregation in Programmatic Weak Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。 PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文参考訳（メタデータ） (2022-10-06T07:28:53Z)
Ensemble Multi-Source Domain Adaptation with Pseudolabels [21.481053348141597]
マルチソースドメイン適応(MSDA)は、ターゲットデータラベルがない場合に、ターゲットデータセットとは異なる複数のソースデータセットを使用してモデルをトレーニングすることを目的としている。既存のMSDAフレームワークは、各ドメインの条件分布 p(x|y) を考慮せずにデータを整列するので制限されている。マルチソースドメイン適応のための新しい手法であるPseudolabels (EnMDAP) を用いたEnsemble Multi-source Domain Adaptationを提案する。
論文参考訳（メタデータ） (2020-09-29T18:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。