論文の概要: Redwood: Using Collision Detection to Grow a Large-Scale Intent
Classification Dataset
- arxiv url: http://arxiv.org/abs/2204.05483v1
- Date: Tue, 12 Apr 2022 02:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:20:41.440103
- Title: Redwood: Using Collision Detection to Grow a Large-Scale Intent
Classification Dataset
- Title(参考訳): redwood: 衝突検出を使って大規模意図分類データセットを成長させる
- Authors: Stefan Larson, Kevin Leach
- Abstract要約: 意図分類システムでは、新しいスキルの意図のためのトレーニングデータが既に存在する意図と意味的に重なると問題が発生することがある。
本稿では,システムのスキルセットを育成するために,複数のデータセット間の意図的衝突検出タスクを紹介する。
そこで本研究では,意図衝突検出の必要性を強調するために,意図を調停しない方法で新たなデータを追加すると,モデル性能が損なわれることを示す。
- 参考スコア(独自算出の注目度): 4.224157527132053
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dialog systems must be capable of incorporating new skills via updates over
time in order to reflect new use cases or deployment scenarios. Similarly,
developers of such ML-driven systems need to be able to add new training data
to an already-existing dataset to support these new skills. In intent
classification systems, problems can arise if training data for a new skill's
intent overlaps semantically with an already-existing intent. We call such
cases collisions. This paper introduces the task of intent collision detection
between multiple datasets for the purposes of growing a system's skillset. We
introduce several methods for detecting collisions, and evaluate our methods on
real datasets that exhibit collisions. To highlight the need for intent
collision detection, we show that model performance suffers if new data is
added in such a way that does not arbitrate colliding intents. Finally, we use
collision detection to construct and benchmark a new dataset, Redwood, which is
composed of 451 ntent categories from 13 original intent classification
datasets, making it the largest publicly available intent classification
benchmark.
- Abstract(参考訳): ダイアログシステムは、新しいユースケースやデプロイメントシナリオを反映するために、更新を通じて新しいスキルを組み込むことができる必要があります。
同様に、このようなML駆動システムの開発者は、これらの新しいスキルをサポートするために、既存のデータセットに新しいトレーニングデータを追加する必要がある。
意図分類システムでは、新しいスキルの意図のためのトレーニングデータが既に存在する意図と意味的に重なると問題が発生することがある。
そのような場合を衝突と呼ぶ。
本稿では,システムのスキルセットを育成するために,複数のデータセット間の意図的衝突検出タスクを紹介する。
衝突検出法をいくつか紹介し,衝突を呈する実データセットについて評価する。
意図衝突検出の必要性を強調するために,新たなデータを追加しても衝突意図を調停しないようなモデル性能が損なわれることを示す。
最後に、衝突検出を用いて新しいデータセットRedwoodを構築し、ベンチマークする。Redwoodは、13の意図分類データセットから451の帰属カテゴリで構成されており、公開意図分類ベンチマークとしては最大である。
関連論文リスト
- DialogVCS: Robust Natural Language Understanding in Dialogue System
Upgrade [36.433020605744986]
製品対話システムの定期的な更新では、実際のユーザからの新たなデータが既存のデータにマージされる。
新しい意図が出現し、既存の意図と意味的な絡み合いを持つかもしれない。
4つの対話バージョン管理データセット(VCS)からなる新しいベンチマークをセットアップする。
システム更新における不完全なデータによる意図検出を,肯定的かつ未定な意図を持つ多ラベル分類タスクとして定式化する。
論文 参考訳(メタデータ) (2023-05-24T05:53:38Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Novel Class Discovery without Forgetting [72.52222295216062]
我々は NCDwF: Novel Class Discovery without Forgetting の新たな実用的問題設定を特定し,定式化する。
ラベルのないデータから新しいカテゴリのインスタンスを段階的に発見する機械学習モデルを提案する。
CIFAR-10, CIFAR-100, ImageNet-1000に基づく実験プロトコルを導入し, 知識保持と新しいクラス発見のトレードオフを測定する。
論文 参考訳(メタデータ) (2022-07-21T17:54:36Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - The Pursuit of Knowledge: Discovering and Localizing Novel Categories
using Dual Memory [85.01439251151203]
我々は,未ラベルの大規模データセットにおける新しいオブジェクトの発見と位置決定の課題であるオブジェクトカテゴリ発見に取り組む。
2つのメモリモジュールを用いて,オブジェクトカテゴリに関する事前知識を用いて新たなカテゴリを探索する手法を提案する。
検出器の性能をCOCOのミニバルデータセットで示し、そのインザワイルド機能を実証します。
論文 参考訳(メタデータ) (2021-05-04T17:55:59Z) - Generalized Zero-shot Intent Detection via Commonsense Knowledge [5.398580049917152]
学習データ不足の問題を克服するために,教師なしの方法でコモンセンス知識を活用する意図検出モデル RIDE を提案する。
RIDEは、発話と意図ラベルの間の深い意味的関係をキャプチャする、堅牢で一般化可能な関係メタ機能を計算する。
広範に使用されている3つのインテント検出ベンチマークに関する広範囲な実験的分析により、関係メタ機能により、目に見えないインテントと見えないインテントの両方を検出する精度が著しく向上することが示された。
論文 参考訳(メタデータ) (2021-02-04T23:36:41Z) - Benchmarking Intent Detection for Task-Oriented Dialog Systems [6.54201796167054]
Intent Detectionは、ユーザのテキスト入力の意図を予測してユーザタスクを達成する、現代の目標指向のダイアログシステムの鍵となるコンポーネントである。
堅牢で正確な意図検出モデルの設計には3つの大きな課題がある。
その結果,watson assistantの意図検出モデルは,他の商用ソリューションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-12-07T18:58:57Z) - Learning Adaptive Embedding Considering Incremental Class [55.21855842960139]
CIL(Class-Incremental Learning)は,未知のクラスを逐次生成するストリーミングデータを用いて,信頼性の高いモデルをトレーニングすることを目的としている。
従来のクローズドセット学習とは異なり、CILには2つの大きな課題がある。
新たなクラスが検出された後、以前のデータ全体を使用して再トレーニングすることなく、モデルを更新する必要がある。
論文 参考訳(メタデータ) (2020-08-31T04:11:24Z) - Two-Level Residual Distillation based Triple Network for Incremental
Object Detection [21.725878050355824]
本稿では,より高速なR-CNNに基づく新しいインクリメンタルオブジェクト検出手法を提案する。
従来の学習知識を忘れることなく、新しいクラスでの漸進的なモデル学習を支援するためのアシスタントとして、古いモデルと残留モデルを使用する三重ネットワークである。
論文 参考訳(メタデータ) (2020-07-27T11:04:57Z) - Semi-Supervised Class Discovery [7.123519086758813]
本稿では,ラベル作成能力の新たな重要度尺度であるデータセット再構成精度について紹介する。
クラスがトレーニングデータセットに追加に値するかどうかを判断するために、新しいクラス学習可能性を適用します。
クラス発見システムは視覚や言語にうまく適用できることを示す。
論文 参考訳(メタデータ) (2020-02-10T00:29:44Z) - Cross-dataset Training for Class Increasing Object Detection [52.34737978720484]
オブジェクト検出におけるクロスデータセットトレーニングのための,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。
データセット間のトレーニングによって、既存のデータセットを使用して、単一のモデルで統合されたオブジェクトクラスを検出することができる。
クロスデータセットトレーニングを使用している間、新しいデータセットに新しいクラスをラベル付けするだけです。
論文 参考訳(メタデータ) (2020-01-14T04:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。