論文の概要: Iterative Data Programming for Expanding Text Classification Corpora
- arxiv url: http://arxiv.org/abs/2002.01412v1
- Date: Tue, 4 Feb 2020 17:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:33:39.073928
- Title: Iterative Data Programming for Expanding Text Classification Corpora
- Title(参考訳): テキスト分類コーパスの拡張のための反復データプログラミング
- Authors: Neil Mallinar, Abhishek Shah, Tin Kam Ho, Rajendra Ugrani, Ayush Gupta
- Abstract要約: 実世界のテキスト分類タスクは、しばしば、取得するのに高価なラベル付きトレーニング例を必要とする。
機械教育の最近の進歩、特にデータプログラミングパラダイムは、トレーニングデータセットの迅速な作成を促進する。
近所の弱いモデルを生成することによってテキストデータセットを拡大するための,高速でシンプルなデータプログラミング手法を提案する。
- 参考スコア(独自算出の注目度): 9.152045698511506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world text classification tasks often require many labeled training
examples that are expensive to obtain. Recent advancements in machine teaching,
specifically the data programming paradigm, facilitate the creation of training
data sets quickly via a general framework for building weak models, also known
as labeling functions, and denoising them through ensemble learning techniques.
We present a fast, simple data programming method for augmenting text data sets
by generating neighborhood-based weak models with minimal supervision.
Furthermore, our method employs an iterative procedure to identify sparsely
distributed examples from large volumes of unlabeled data. The iterative data
programming techniques improve newer weak models as more labeled data is
confirmed with human-in-loop. We show empirical results on sentence
classification tasks, including those from a task of improving intent
recognition in conversational agents.
- Abstract(参考訳): 実世界のテキスト分類タスクは、しばしば取得するのに高価なラベル付きトレーニング例を必要とする。
機械教育の最近の進歩、特にデータプログラミングパラダイムは、ラベリング関数(英語版)として知られる弱いモデルを構築するための一般的なフレームワークを通じてデータセットを迅速に作成し、アンサンブル学習技術によってそれらを認知する。
本稿では,近傍の弱モデル生成を最小限の監督で行うことで,テキストデータセットの強化を図るための,高速で簡単なデータプログラミング手法を提案する。
さらに,本手法では,大量の未ラベルデータから疎分散なサンプルを同定する反復的手法を用いる。
反復型データプログラミング技術は、よりラベル付きデータが人間のループで確認されるので、新しい弱いモデルを改善する。
会話エージェントの意図認識を改善するタスクを含む,文分類作業における経験的結果を示す。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Few-Shot Data-to-Text Generation via Unified Representation and
Multi-Source Learning [114.54944761345594]
本稿では,既存の手法の限界に対処する構造化データ・テキスト生成手法を提案する。
提案手法は,マルチタスクトレーニング,ゼロショット,少数ショットシナリオの性能向上を目的としている。
論文 参考訳(メタデータ) (2023-08-10T03:09:12Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Meta-Learning for Neural Relation Classification with Distant
Supervision [38.755055486296435]
本稿では,参照データの指導の下で,雑音の多い学習データを重み付けするメタラーニング手法を提案する。
いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的にガイドできることが示されている。
論文 参考訳(メタデータ) (2020-10-26T12:52:28Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。