論文の概要: Data Programming by Demonstration: A Framework for Interactively
Learning Labeling Functions
- arxiv url: http://arxiv.org/abs/2009.01444v3
- Date: Tue, 15 Sep 2020 22:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 06:50:03.217601
- Title: Data Programming by Demonstration: A Framework for Interactively
Learning Labeling Functions
- Title(参考訳): デモによるデータプログラミング:ラベリング関数を対話的に学習するフレームワーク
- Authors: Sara Evensen and Chang Ge and Dongjin Choi and \c{C}a\u{g}atay
Demiralp
- Abstract要約: 本稿では,ユーザによるインタラクティブなデモンストレーションによるラベル付けルールを生成するために,DPBD(Data Programming by Demo)という新しいフレームワークを提案する。
DPBDは、ユーザからのラベリング関数記述の負担を軽減し、より高いレベルのセマンティクスに集中できるようにすることを目的としている。
文書分類のためのラベル付けルールを,文書例におけるユーザのスパンレベルアノテーションを用いて合成する対話型システムであるReducerを用いて,我々のフレームワークを運用する。
- 参考スコア(独自算出の注目度): 2.338938629983582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data programming is a programmatic weak supervision approach to efficiently
curate large-scale labeled training data. Writing data programs (labeling
functions) requires, however, both programming literacy and domain expertise.
Many subject matter experts have neither programming proficiency nor time to
effectively write data programs. Furthermore, regardless of one's expertise in
coding or machine learning, transferring domain expertise into labeling
functions by enumerating rules and thresholds is not only time consuming but
also inherently difficult. Here we propose a new framework, data programming by
demonstration (DPBD), to generate labeling rules using interactive
demonstrations of users. DPBD aims to relieve the burden of writing labeling
functions from users, enabling them to focus on higher-level semantics such as
identifying relevant signals for labeling tasks. We operationalize our
framework with Ruler, an interactive system that synthesizes labeling rules for
document classification by using span-level annotations of users on document
examples. We compare Ruler with conventional data programming through a user
study conducted with 10 data scientists creating labeling functions for
sentiment and spam classification tasks. We find that Ruler is easier to use
and learn and offers higher overall satisfaction, while providing
discriminative model performances comparable to ones achieved by conventional
data programming.
- Abstract(参考訳): データプログラミングは、大規模ラベル付きトレーニングデータを効率的にキュレートするためのプログラム弱監督手法である。
データプログラム(ラベル関数)を書くには、リテラシーとドメインの専門知識の両方を必要とする。
多くの主題の専門家は、プログラムの熟練度もデータプログラムを効果的に書く時間も持たない。
さらに、コーディングや機械学習の専門知識にかかわらず、ルールやしきい値の列挙によって、ドメインの専門知識をラベル付け関数に移すことは、時間消費だけでなく、本質的にも困難である。
本稿では,ユーザによるインタラクティブなデモンストレーションによるラベル付けルールを生成するために,DPBD(Data Programming by Demo)という新しいフレームワークを提案する。
dpbdは、ユーザからのラベル付け機能の記述の負担を軽減し、ラベル付けタスクに関連するシグナルを識別するといった、より高いレベルのセマンティクスに重点を置くことを目的としている。
ドキュメント例のユーザによるスパンレベルアノテーションを用いて,文書分類のためのラベリングルールを合成する対話型システムである ruler を用いて,このフレームワークを運用する。
従来のデータプログラミングと比較し,10人のデータ科学者が感情分類やスパム分類タスクのラベル付け機能を構築した。
Rulerは使いやすく、学習し、全体的な満足度を高め、従来のデータプログラミングに匹敵する差別的なモデルパフォーマンスを提供する。
関連論文リスト
- Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - I Know Therefore I Score: Label-Free Crafting of Scoring Functions using
Constraints Based on Domain Expertise [6.26476800426345]
多次元数値データからスコアリング関数を学習するためのラベルなし実践的手法を提案する。
このアプローチでは、ドメインエキスパートの洞察とビジネスルールを、容易に観察可能で特定可能な制約という形で取り入れています。
このような制約を、スコアリング関数を学習しながら同時に最適化された損失関数に変換する。
論文 参考訳(メタデータ) (2022-03-18T17:51:20Z) - TagRuler: Interactive Tool for Span-Level Data Programming by
Demonstration [1.4050836886292872]
データプログラミングは、プログラミングの方法を知っているユーザーにのみアクセス可能だった。
我々はTagRulerという新しいツールを構築し、アノテータがプログラミングなしでスパンレベルのラベリング関数を簡単に構築できるようにする。
論文 参考訳(メタデータ) (2021-06-24T04:49:42Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Generative Adversarial Data Programming [32.2164057862111]
本稿では,ラベル付け機能を用いた遠隔監視信号を用いて,与えられたデータのラベルをほぼ一定時間で取得できることを示す。
このフレームワークは、自己教師付きラベル付き画像生成、ラベル付き画像生成へのゼロショットテキスト、転送学習、マルチタスク学習など、さまざまな設定に拡張されている。
論文 参考訳(メタデータ) (2020-04-30T07:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。