論文の概要: Semi-supervised Interactive Intent Labeling
- arxiv url: http://arxiv.org/abs/2104.13406v1
- Date: Tue, 27 Apr 2021 18:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 22:26:29.778752
- Title: Semi-supervised Interactive Intent Labeling
- Title(参考訳): 半教師付きインタラクティブインテントラベリング
- Authors: Saurav Sahay, Eda Okur, Nagib Hakim, Lama Nachman
- Abstract要約: SDS開発者向けのインテントバルクラベルシステムを開発しました。
ユーザはラベルのない発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。
いくつかのデータセットでは,クラスタリング精度が10%以上向上している。
- 参考スコア(独自算出の注目度): 6.99674326582747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building the Natural Language Understanding (NLU) modules of task-oriented
Spoken Dialogue Systems (SDS) involves a definition of intents and entities,
collection of task-relevant data, annotating the data with intents and
entities, and then repeating the same process over and over again for adding
any functionality/enhancement to the SDS. In this work, we have developed an
Intent Bulk Labeling system for SDS developers. The users can interactively
label and augment training data from unlabeled utterance corpora using advanced
clustering and visual labeling methods. We extend the Deep Aligned Clustering
work with a better backbone BERT model, explore techniques to select the seed
data for labeling, and develop a data balancing method using an oversampling
technique that utilizes paraphrasing models. We also look at the effect of data
augmentation on the clustering process. Our results show that we can achieve
over 10% gain in clustering accuracy on some datasets using the combination of
the above techniques. Finally, we extract utterance embeddings from the
clustering model and plot the data to interactively bulk label the data,
reducing the time and effort for data labeling of the whole dataset
significantly.
- Abstract(参考訳): タスク指向の音声対話システム(SDS)の自然言語理解(NLU)モジュールの構築には、インテントとエンティティの定義、タスク関連データの収集、インテントとエンティティによるアノテート、そしてSDSに機能/エンハンスメントを追加するために何度も同じプロセスを繰り返すことが含まれる。
本研究では,SDS開発者を対象としたIntent Bulk Labelingシステムを開発した。
ユーザは高度なクラスタリングとビジュアルラベリング手法を用いて、ラベルなし発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。
本稿では,より優れたbackbone bertモデルを用いてディープアライメントクラスタリング作業を拡張し,ラベリング用のシードデータを選択する手法を探索し,パラフラージングモデルを利用したオーバーサンプリング手法を用いたデータバランシング手法を開発する。
また、データ拡張がクラスタリングプロセスに与える影響についても検討する。
以上の手法を組み合わせることで,いくつかのデータセットにおいて,クラスタリング精度が10%以上向上できることを示す。
最後に、クラスタリングモデルから発話埋め込みを抽出し、データをプロットしてデータをインタラクティブにバルクラベル付けし、データセット全体のデータラベリングに要する時間と労力を大幅に削減する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - A Self Supervised StyleGAN for Image Annotation and Classification with
Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。
提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-26T09:46:50Z) - Navigating Data Heterogeneity in Federated Learning A Semi-Supervised
Federated Object Detection [3.7398615061365206]
フェデレートラーニング(FL)は、分散データソース間でモデルをトレーニングするための強力なフレームワークとして登場した。
特に自動運転のようなアプリケーションでは、高品質なラベルや、IID以外のクライアントデータに制限がある。
クライアントがラベル付きデータを持っている間、ラベル付きデータがサーバにのみ存在するシナリオ用に設計された、先駆的なSSFODフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T01:40:28Z) - TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation [28.567219434790875]
コンテンツベースのレコメンデーション(CBR)のモダンなテクニックは、アイテムコンテンツ情報を活用して、ユーザにパーソナライズされたサービスを提供するが、大規模なデータセットでのリソース集約的なトレーニングに苦しむ。
そこで我々は,大規模なデータセットで訓練されたデータセットに匹敵する性能をモデルが達成できるような,小さいが情報に富むデータセットを合成するために,データセット凝縮を提案する。
データセットのサイズを95%削減しながら、元のパフォーマンスの97%を近似することができます(すなわち、データセットMIND上で)。
論文 参考訳(メタデータ) (2023-10-15T16:15:07Z) - IDAS: Intent Discovery with Abstractive Summarization [16.731183915325584]
目的発見における近年の競合手法は,抽象的な要約に基づく発話のクラスタリングによってより優れることを示す。
我々は、大規模言語モデルに促すことで、記述的発話ラベルの集合を収集するIDASアプローチに貢献する。
発話とそのノイズラベルは、凍結した事前訓練されたエンコーダによって符号化され、その後クラスタ化され、潜伏した意図を回復する。
論文 参考訳(メタデータ) (2023-05-31T12:19:40Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。