論文の概要、ライセンス

# (参考訳) 事前訓練されたトランスフォーマーは意図分類において堅牢か? スコープ外インテント検出における欠失成分の検討 [全文訳有]

Are Pretrained Transformers Robust in Intent Classification? A Missing Ingredient in Evaluation of Out-of-Scope Intent Detection ( http://arxiv.org/abs/2106.04564v1 )

ライセンス: CC BY 4.0
Jian-Guo Zhang, Kazuma Hashimoto, Yao Wan, Ye Liu, Caiming Xiong, Philip S. Yu(参考訳) 事前訓練されたトランスフォーマーベースのモデルは意図分類において堅牢であると報告された。 本研究は、まず、少数の意図認識タスクにおけるドメイン内外検出の重要性を指摘し、その上で、ドメイン内だがスコープ外(ID-OOS)であるサンプルに対する事前訓練されたトランスフォーマーベースモデルの脆弱性を説明する。 実験により、事前訓練されたモデルは、ID-OOS例と一般的なスコープ外例の両方、特にきめ細かなショットインテント検出タスクでうまく機能しないことを示す。 モデルがID-OOSインテントをスコープ内インテントとして誤って分類する方法を明らかにするために,信頼性スコアと重なり合うキーワードの分析を行い,今後の作業に向けていくつかの方向を示す。 今後の研究を促進するための関連リソースをリリースする。

Pretrained Transformer-based models were reported to be robust in intent classification. In this work, we first point out the importance of in-domain out-of-scope detection in few-shot intent recognition tasks and then illustrate the vulnerability of pretrained Transformer-based models against samples that are in-domain but out-of-scope (ID-OOS). We empirically show that pretrained models do not perform well on both ID-OOS examples and general out-of-scope examples, especially on fine-grained few-shot intent detection tasks. To figure out how the models mistakenly classify ID-OOS intents as in-scope intents, we further conduct analysis on confidence scores and the overlapping keywords and provide several prospective directions for future work. We release the relevant resources to facilitate future research.
公開日: Tue, 8 Jun 2021 17:51:12 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Are Pretrained Transformers Robust in Intent Classification? 事前訓練されたトランスフォーマーは意図分類において堅牢か? 0.45
A Missing Ingredient in Evaluation of Out-of-Scope Intent Detection スコープ外インテント検出における欠失成分の検討 0.70
Jian-Guo Zhang1 Kazuma Hashimoto2 Yao Wan3 Jian-Guo Zhang1 Hashimoto2 Yao Wan3 0.72
Ye Liu1 Caiming Xiong2 Ye Liu1 Caiming Xiong2 0.84
Philip S. Yu1 Philip S. Yu1 0.78
1 University of Illinois at Chicago, Chicago, USA イリノイ大学シカゴ校, シカゴ校 0.44
3Huazhong University of Science and Technology, Wuhan, China 中国・武漢市三華宗科学技術大学 0.66
{jzhan51,yliu279,psyu }@uic.edu, wanyao@hust.edu.cn jzhan51,yliu279,psyu }@uic.edu, wanyao@hust.edu.cn 0.75
2Salesforce Research, Palo Alto, USA 2Salesforce Research, Palo Alto, USA 0.96
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 4 6 5 4 0 1 v 4 6 5 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
{k.hashimoto,cxiong}@salesforce.com k.hashimoto,cxiong}@salesforce.com 0.83
Abstract Pretrained Transformer-based models were reported to be robust in intent classification. 概要 事前訓練されたトランスフォーマーベースのモデルは意図分類において堅牢であると報告された。 0.44
In this work, we first point out the importance of in-domain out-of-scope detection in few-shot intent recognition tasks and then illustrate the vulnerability of pretrained Transformer-based models against samples that are in-domain but out-of-scope (ID-OOS). 本研究は、まず、少数の意図認識タスクにおけるドメイン内外検出の重要性を指摘し、その上で、ドメイン内だがスコープ外(ID-OOS)であるサンプルに対する事前訓練されたトランスフォーマーベースモデルの脆弱性を説明する。 0.55
We empirically show that pretrained models do not perform well on both ID-OOS examples and general outof-scope examples, especially on fine-grained few-shot intent detection tasks. 実験により、事前訓練されたモデルは、ID-OOSの例と一般的な外見の例の両方、特にきめ細かいショットインテント検出タスクでうまく機能しないことを示す。 0.59
To figure out how the models mistakenly classify ID-OOS intents as in-scope intents, we further conduct analysis on confidence scores and the overlapping keywords and provide several prospective directions for future work. モデルがID-OOSインテントをスコープ内インテントとして誤って分類する方法を明らかにするために,信頼性スコアと重なり合うキーワードの分析を行い,今後の作業に向けていくつかの方向を示す。 0.64
We release the relevant resources to facilitate future research.1 我々は,今後の研究を促進するための関連資源をリリースする。1 0.54
1 Introduction Intent detection, which aims to identify intents from user utterances, is a vital task in goal-oriented dialog systems. 1 はじめに ユーザ発話から意図を識別するインテント検出は,目標指向対話システムにおいて重要な課題である。 0.73
Correctly identifying user intents can facilitate downstream tasks such as dialog state tracking (Wu et al , 2019; Zhang et al , 2020b) and dialogue management (Gao et al , 2018; Ham et al , 2020). ユーザの意図を正しく識別することで、ダイアログ状態追跡(Wu et al , 2019; Zhang et al , 2020b)や対話管理(Gao et al , 2018; Ham et al , 2020)といった下流タスクが容易になる。 0.79
However, the performance of intent detection has been hindered by the data scarcity issue, as it is non-trivial to collect sufficient examples for new intents. しかし、意図検出の性能はデータ不足の問題によって妨げられ、新しい意図に対する十分なサンプルを集めることは簡単ではない。 0.62
In practice, the user requests could also be not expected or supported by the tested dialog system, referred to as out-of-scope (OOS) intents. 実際には、ユーザリクエストは、テスト済みのダイアログシステム(OOS(Out-of-scope)インテント)によって期待またはサポートされない。 0.63
Thus, it is important to improve OOS intents detection performance while keeping the accuracy of detecting in-scope intents in the few-shot learning scenario. したがって、数発の学習シナリオにおいて、顕微鏡内インテントの検出精度を維持しつつ、OOSインテント検出性能を向上させることが重要である。 0.59
For OOS detection task, Larson et al (2019) constructed a new dataset CLINC, which has been widely used in recent works (Zheng et al , 2019; OOS検出タスクのために、Larson et al (2019)は、最近の作品(Zheng et al , 2019)で広く使われている新しいデータセットCLINCを構築した。 0.75
1https://github.com/ jianguoz/ 1https://github.com/ jianguoz/ 0.39
Few-Shot-Intent-Dete ction マイトショットインテント検出 0.27
Zhang et al , 2020a; Wu et al , 2020; Cavalin et al , 2020). Zhang et al , 2020a; Wu et al , 2020; Cavalin et al , 2020)。 0.84
The OOS examples in this dataset are designed such that they do not belong to any of the known intent classes, making the OOS detection task challenging. このデータセットのOOSサンプルは、既知の意図クラスのいずれかに属さないよう設計されており、OOS検出タスクは困難である。 0.76
Previous experiments have shown that a simple confidence-based out-of-distribution detection method (Hendrycks and Gimpel, 2017; Hendrycks et al , 2020a; Wu et al , 2020) equipped with pretrained BERT can improve OOS detection accuracy. 従来の実験では、Hendrycks and Gimpel, 2017; Hendrycks et al , 2020a; Wu et al , 2020) に事前訓練したBERTを装着することで、OOS検出精度を向上させることができる。 0.65
This is because such pretrained Transformers are good at domain clustering (Aharoni and Goldberg, 2020). これは、事前訓練されたトランスフォーマーがドメインクラスタリング(aharoni and goldberg, 2020)に優れているためである。 0.60
However, these approaches still leave much space for further improvements when adapting to fine-grained OOS detection under the few-shot learning scenario. しかし、これらのアプローチは、わずかな学習シナリオできめ細かいoos検出に適応する場合、さらに改善する余地を残している。 0.62
In this paper, we aim to investigate the following research question: “are pretrained Transformers robust in intent classification?”. 本稿では,「事前学習されたトランスフォーマーは意図的分類において堅牢か?」という,以下の研究課題について検討することを目的とする。 0.55
We first define two types of OOS intents: out-of-domain OOS (OOD-OOS) and in-domain OOS (ID-OOS). まず、OOSインテントの2つのタイプを定義します: ドメイン外OOS(OOD-OOS)とドメイン内OOS(ID-OOS)です。
訳抜け防止モード: まず最初に、OOSインテントの2つのタイプを定義します。 ドメイン OOS (ID - OOS )。
0.73
We then investigate how robustly state-of-the-art pretrained Transformers perform on these two OOS types. 次に、これらの2つのOOSタイプにおいて、最先端の事前訓練されたトランスフォーマーがどのように機能するかを調査する。 0.34
The OOD-OOS is identical to the OOS in the CLINC dataset, where the OOS and in-scope intents (e g , requesting an online TV show service in a banking system) are topically rarely overlapped. OOD-OOSはCLINCデータセットのOOSと同一であり、OOSとスコープ内インテント(例えば、銀行システムでオンラインテレビ番組サービスを要求する)は、ほとんど重複しない。 0.74
We construct an ID-OOS set for a domain, by separating semantically-related intents from the in-scope intents (e g , requesting a banking service that is not supported by the banking system). ドメインのID-OOSセットは、インスコープインテント(例えば、銀行システムでサポートされていない銀行サービスを要求)から意味論的に関連づけられたインテントを分離することで構築する。 0.74
Empirically, we evaluate several pretrained Transformers (e g , BERT (Devlin et al , 2019), RoBERTa (Liu et al , 2019), ALBERT (Lan et al , 2020), and ELECTRA (Clark et al , 2020)) in the few-shot learning scenario, as well as pretrained ToD-BERT (Wu et al , 2020) on task-oriented dialog system. 実例では,いくつかの事前学習型トランスフォーマー (eg , BERT (Devlin et al , 2019), RoBERTa (Liu et al , 2019), ALBERT (Lan et al , 2020), ELECTRA (Clark et al , 2020) とタスク指向ダイアログシステム上での事前学習型ToD-BERT (Wu et al , 2020) を評価した。 0.78
Experimental results on the singledomain CLINC dataset and especially the negative results on the large fine-grained BANKING77 dataset (Casanueva et al , 2020) reveal several interesting findings as follows: (1) the pretrained 単一ドメインCLINCデータセットの実験結果、特にBANKING77データセットの負の結果(Casanueva et al , 2020)は、(1)事前訓練後の興味深い発見をいくつか示している。 0.73
英語(論文から抽出)日本語訳スコア
models are much less robust on ID-OOS than on the in-scope and OOD-OOS examples; (2) both ID-OOS and OOD-OOS detections are not well tackled and require further explorations on the scenario of fine-grained few-shot intent detection; and (3) it is surprising to find that pretrained models can predict undesirably confident scores even when masking keywords shared among confusing intents. 2) ID-OOS と OOD-OOS の両検出はうまく対応されておらず、細粒度の少数ショットインテント検出のシナリオについてさらなる調査が必要であり、(3) 事前学習されたモデルが、混乱した意図間で共有されるキーワードであっても、望ましくない確実なスコアを予測できることは驚きである。 0.76
Additionally, we also point out several prospective directions and release the relevant resources to facilitate future study. さらに,いくつかの今後の方向性を指摘し,今後の研究を促進するための関連資源を開放する。 0.60
2 Evaluation Protocol Task definition We consider a few-shot intent detection system that handles pre-defined K in-scope intents. 2 評価プロトコルタスク定義 予め定義されたKインスコープインテントを処理する数発のインテント検出システムを検討する。 0.67
The task is, given a user utterance text u, to classify u into one of the K classes or to recognize u as OOS (i.e., OOS detection). タスクは、ユーザ発話テキストuが与えられた場合、uをKクラスの1つに分類するか、またはuをOOS(すなわちOOS検出)として認識する。 0.76
To evaluate the system, we follow Larson et al (2019) and Zhang et al (2020a) to use in-scope accuracy, Ain = Cin/Nin, and OOS recall, Roos = Coos/Noos. このシステムを評価するために、Larson et al (2019) と Zhang et al (2020a) をフォローして、顕微鏡内精度、Ain = Cin/Nin、OOSリコール、Roos = Coos/Noos を用いる。 0.68
We additionally report OOS precision, Poos = Coos/N(cid:48) oos. また,OOS精度, Poos = Coos/N(cid:48) oosを報告する。 0.71
Cin and Coos are the number of correctly predicted in-scope and out-of-scope examples, respectively; Nin and Noos are the total number of the in-scope and out-of-scope examples evaluated, respectively; if an in-scope example is predicted as OOS, it is oos (≤ Nin + Noos) is the counted as wrong. Cin と Coos は、それぞれ正しく予測された顕微鏡内サンプルの数であり、Nin と Noos は、それぞれ評価された顕微鏡内サンプルの総数であり、顕微鏡内サンプルが OOS であると予測された場合、oos (≤ Nin + Noos) は間違った数である。 0.63
N(cid:48) number of examples predicted as OOS. n(cid:48) oosとして予測された例の数。 0.61
a use Inference We confidence-based method (Hendrycks and Gimpel, 2017; Hendrycks et al , 2020a) to evaluate the five pretrained Transformers. あ 利用 Inference We confidence-based method (Hendrycks and Gimpel, 2017; Hendrycks et al , 2020a) to evaluate the five pretrained Transformers。 0.72
We compute a hidden vector h = Encoder(u) ∈ R768 for u, where Encoder ∈ {BERT, RoBERTa, ALBERT, ELECTRA, ToD-BERT}, and compute a probability vector p(y|u) = softmax(W h + b) ∈ RK, where W and b are the model parameters. 隠れベクトル h = Encoder(u) ∈ R768 を u に対して計算し、Encoder ∈ {BERT, RoBERTa, ALBERT, ELECTRA, ToD-BERT} を計算し、確率ベクトル p(y|u) = softmax(W h + b) ∈ RK を計算する。
訳抜け防止モード: 隠れベクトル h = Encoder(u ) ∈ R768 を u に対して計算する。 where Encoder ∈ { BERT, RoBERTa, ALBERT, ELECTRA, ToD - BERT } を計算し、確率ベクトル p(y|u ) = Softmax(W h + b ) ∈ RK を計算する。 ここで W と b がモデルパラメータである。
0.89
We first take the class c with the largest value of p(y = c|u), then output c if p(y = c|u) > δ, where δ ∈ [0.0, 1.0] is a threshold value, and otherwise we output OOS. まず、クラス c を p(y = c|u) の最大値で取り、次に p(y = c|u) > δ であれば c を出力し、ここで δ ∈ [0.0, 1.0] はしきい値であり、そうでない場合は oos を出力する。 0.74
δ is tuned by using the development set, so as to maximize (Ain + Roos) averaged across different runs (Zhang et al , 2020a). δは開発セットを使用して調整され、異なる実行(zhang et al , 2020a)で平均される(ain + roos)を最大化する。 0.81
Training To train the model, we use training examples of the in-scope intents, i.e., we do not use any OOS training examples. モデルをトレーニングするために、私たちはスコープ内インテントのトレーニング例を使用します。
訳抜け防止モード: モデルをトレーニングするトレーニング。 in-スコープインテントのトレーニング例を使用します。 OOSトレーニングの例は一切使用していません。
0.76
This is reasonable as it is difficult to collect sufficient OOS data to model the space and distribution of the unpredictable OOS intents (Zhang et al , 2020a; Cavalin et al , 2020). 予測不可能なOOSインテント(Zhang et al , 2020a; Cavalin et al , 2020)の空間と分布をモデル化するのに十分なOOSデータを集めることは、合理的である。 0.84
3 Dataset Construction 3 データセットの構築 0.65
We describe the two types of OOS (i.e., OOD-OOS and ID-OOS), using the CLINC dataset (Larson et al , 2019) and the fine-grained BANKING77 dataset (Casanueva et al , 2020). 私たちはCLINCデータセット(Larson et al , 2019)と詳細なBANKING77データセット(Casanueva et al , 2020)を使用して、OOSの2つのタイプ(OOD-OOSとID-OOS)を説明する。 0.75
The CLINC dataset covers 15 intent classes for each of the 10 different domains, and it also includes OOS examples. CLINCデータセットは、10の異なるドメイン毎に15のインテントクラスをカバーしており、OOSの例も含まれている。 0.70
We randomly select two domains, i.e., “Banking” domain and “Credit cards” domain, out of the ten domains to evaluate models.2 The BANKING77 dataset is a large fine-grained single banking domain intent dataset with 77 intents, and it initially does not include OOS examples. モデルを評価するために10ドメインのうち“Banking”ドメインと“Credit Card”ドメインという2つのドメインをランダムに選択します。
訳抜け防止モード: ランダムに2つのドメインを選択します。 モデルを評価する10のドメインのうち2の“クレジットカード”ドメイン BANKING77データセットは、77のインテントを持つ、きめ細かい単一の銀行ドメインインテントデータセットである。 当初はOOSの例は含まれていない。
0.80
We use these two datasets because (1) it focuses on the OOS detection task and (2) we can conduct the evaluation across different domains and the single large fine-grained domain. この2つのデータセットは、(1)OOS検出タスクに焦点をあて、(2)異なるドメインと単一の大きなきめ細かいドメインで評価を行うことができるためである。 0.78
OOD-OOS We use the initially provided OOS examples of the CLINC dataset as OOD-OOS examples for both datasets. OOD-OOS 最初に提供されたCLINCデータセットのOOSサンプルを、両方のデータセットのOOD-OOSサンプルとして使用します。 0.52
To justify our hypothesis that the CLINC’s OOS examples can be considered as out of the domains, we take the 100 OOS examples from the development set, and check whether the examples are related to each domain. clincのoosサンプルがドメイン外であると考えることができるという仮説を正当化するために、開発セットから100のoosサンプルを取得し、それぞれのドメインに関連があるかどうかを確認します。
訳抜け防止モード: 我々の仮説を正当化するために、clinc の oos の例をドメイン外と見なすことができる。 開発セットから100のoosの例を取ります。 サンプルが各ドメインに関連しているかチェックする。
0.69
Consequently, only 4 examples are relevant to “Banking”, while none is related to “Credit cards”. 結果として,“バンキング”に関連する例はわずか4つだが,“クレディットカード”には関連性がない。 0.72
There are also no overlaps between the added OOS examples and the original BANKING77 dataset. また、追加されたOOSサンプルとオリジナルのBANKING77データセットの間に重複はない。 0.62
These findings show that most of the OOS examples are not related to the targeted domains, and we cannot effectively evaluate the model’s capability to detect OOS intents within the same domain. これらの結果から,OOSのサンプルのほとんどは対象ドメインとは関係がなく,同一ドメイン内のOOSインテントを検出するモデルの能力を効果的に評価できないことがわかった。 0.85
ID-OOS Detecting the OOD-OOS examples is important in practice, but we focus more on how the model behaves on ID-OOS examples. ID-OOS 検出 OOD-OOS の例は実践上重要であるが,モデルが ID-OOS の例に対してどのように振る舞うかに注目する。 0.70
For the ID-OOS detection evaluation, we separate 5 intents from the 15 intents in each of the domains and use them as the ID-OOS samples for the CLINC dataset, following the previous work (Shu et al , 2017). ID-OOS検出評価では、各ドメインの15のインテントから5つのインテントを分離し、CLINCデータセットのID-OOSサンプルとして使用する(Shu et al , 2017)。 0.70
In contrast to the previous work that randomly splits datasets, we intentionally design a confusing setting for each domain. データセットをランダムに分割する以前の作業とは対照的に、各ドメインに対する混乱した設定を意図的に設計します。 0.61
More specifically, we select 5 intents that are semantically similar to some of the 10 remaining intents. 具体的には、残りの10のインテントにセマンティックに類似した5つのインテントを選択します。 0.65
For the BANKING77 dataset, we randomly separate 27 intents from the 77 intents and use them as the ID-OOS samples following the above process. BANKING77データセットでは、77の意図から27の意図をランダムに分離し、上記のプロセスに続くID-OOSサンプルとして使用します。 0.72
Table 4 and Table 5 in Appendix A show which intent labels 付録aの表4及び表5は、意図ラベルを示す。 0.75
2In our preliminary experiments, we have similar findings 2 予備実験で同様の結果が得られた。 0.65
across different models on the other domains. 他のドメインの異なるモデルにまたがっています 0.75
英語(論文から抽出)日本語訳スコア
CLINC-Single-Domain- OOS K Train Dev. CLINC-Single-Domain- OOS K Train Dev 0.59
500 In-scope 10 ID-OOS 400OOD-OOS 200 BANKING77-OOS K Train Dev. 500 In-scope 10 ID-OOS 400OOD-OOS 200 BANKING77-OOS K Train Dev 0.65
1506 50 In-scope 530ID-OOS OOD-OOS200 1506 インスコープ530ID-OOD-OOS200 0.55
500- 5905 - 500- 5905 - 0.83
Test 500 350 1000 Test 2000 1080 1000 テスト 500 350 1000 Test 2000 1080 1000 0.83
Table 1: Statistics of CLINC-Single-Domain- OOS and BANKING77-OOS dataset. 表1: CLINC-Single-Domain- OOS と BANKING77-OOS データセットの統計。 0.58
are treated as ID-OOS for the CLINC dataset and BANKING77 dataset, respectively. それぞれCLINCデータセットとBANKING77データセットのID-OOSとして扱われている。 0.63
Data statistics For each domain, the original CLINC dataset has 100, 20, and 30 examples for each in-scope intent, and 100, 100, and 1000 OODOOS examples for the train, development, and test sets, respectively. データ統計 ドメイン毎に、オリジナルのCLINCデータセットには、スコープ内のインテント毎に100、20、30のサンプルがあり、それぞれ、トレイン、開発、テストセット用の100、100、1000のOODOOSサンプルがある。 0.68
To incorporate the ID-OOS intents, we reorganize the original dataset. ID-OOSインテントを組み込むため、元のデータセットを再編成する。 0.65
For each in-scope intent in the training set, we keep 50 examples as a new training set, and move the rest 30 examples and 20 examples to the development and test sets through random sampling. トレーニングセット内のインテント毎に、50のサンプルを新しいトレーニングセットとして保持し、残りの30のサンプルと20のサンプルをランダムサンプリングを通じて開発およびテストセットに移動させます。 0.79
For the examples of each ID-OOS intent in the training set, we randomly sample 60 examples and add them to the development set and add the rest of the 40 examples to the test set. トレーニングセット内の各id-oosインテントの例については、60のサンプルをランダムにサンプリングして開発セットに追加し、残りの40のサンプルをテストセットに追加します。 0.78
We move the unused OOD-OOS examples of the training set to the validation set and keep the OODOOS test set unchanged. 未使用のOOD-OOSのトレーニングセットを検証セットに移動し、OODOOSテストセットをそのままにします。 0.70
For the BANKING77 dataset, we move the training/validation/ test examples of the selected 27 intents to the ID-OOS training/validation/ test examples, and we copy the OOD-OOS examples of CLINC as the OOD-OOS examples of BANKING77. BANKING77データセットでは、選択した27のインテントのトレーニング/検証/テスト例をID-OOSトレーニング/検証/テスト例に移動し、CLINCのOOD-OOSサンプルをBANKING77のOOD-OOSサンプルとしてコピーする。 0.61
We name the two new datasets as CLINC-Single-Domain- OOS and BANKING77-OOS, respectively. この2つの新しいデータセットはそれぞれCLINC-Single-Domain- OOSとBANKING77-OOSと命名した。 0.48
Table 1 shows the statistics of these two dataset. 表1は2つのデータセットの統計を示しています。 0.67
4 Empirical Study 4.1 Experimental Setting We implement all the models following public code from Zhang et al (2020a),3 based on the HuggingFace Transformers library (Wolf et al , 2019) for the easy reproduction of experiments. 4 実証的研究 4.1 実験的な設定 Zhang et al (2020a),3 の HuggingFace Transformers ライブラリ (Wolf et al , 2019) に基づく公開コードに従うすべてのモデルを実装する。 0.76
Experiments were conducted on single NVIDIA Tesla V100 GPU with 32GB memory. 実験は32gbメモリのnvidia tesla v100 gpuで実施された。 0.77
For each component related to the five pretrained models, we use the roberta-base configuration for RoBERTa; bert-base-uncased 5つの事前訓練されたモデルに関連する各コンポーネントに対して、RoBERTa; bert-base-uncasedのRoberta-base設定を使用する。 0.59
3https://github.com/ salesforce/ 3https://github.com/ salesforce/ 0.39
DNNC-few-shot-intent DNNC-few-shot-intent 0.29
for BERT; albert-base-v2 for ALBERT; electra-base-discrim inator for ELECTRA; tod-bert-jnt-v1 for ToDBERT. BERTはalbert-base-v2、ELECTRAはelectra-base-discrim inator、ToDBERTはtod-bert-jnt-v1。 0.50
All the model parameters are updated during the fine-tuning process, where we use the AdamW (Hendrycks et al , 2020b) optimizer with a weight decay coefficient of 0.01 for all the non-bias parameters. 全てのモデルパラメータは微調整プロセス中に更新され、非バイアスパラメータすべてに対して重量減衰係数0.01のAdamW(Hendrycks et al , 2020b)オプティマイザを使用する。 0.83
We use a gradient clipping technique (Pascanu et al , 2013) with a clipping value of 1.0, and also use a linear warmup learning-rate scheduling with a proportion of 0.1 w.r.t. クリッピング値 1.0 の勾配クリッピング手法 (Pascanu et al , 2013) と 0.1 w.r.t の線形ウォームアップ学習レートスケジューリングを用いる。
訳抜け防止モード: クリッピング値 1.0 の勾配クリッピング手法 (Pascanu et al, 2013 ) を用いる。 また、線形ウォームアップ学習を使用し、0.1wrtの割合でレートスケジューリングを行う。
0.79
to the maximum number of training epochs. 訓練エポックの最大数に 達しています 0.65
perform hyperparameters searches for learning rate values ∈ {1e − 4, 2e − 5, 5e − 5}, and the number of the training epochs ∈ {8, 15, 25, 35}. ハイパーパラメータを実行すると、学習率の値 ∈ {1e − 4, 2e − 5, 5e − 5} とトレーニングのエポック数 ∈ {8, 15, 25 35} が検索される。 0.89
We set the batch size to 10 and 50 for CLINC and BANKING77, respectively. バッチサイズをCLINCとBANKING77でそれぞれ10と50に設定した。 0.63
We take the hyper-parameter sets for each experiment and train the model ten times for each hyper-parameter set to select the best threshold δ (introduced in Section 2) on the development set. 本研究は,各実験用ハイパーパラメータ集合を用いて,各ハイパーパラメータ集合のモデルを10回トレーニングし,開発セット上での最適しきい値δ(セクション2で導入)を選択する。 0.79
We then select the best hyper-parameter set along with the corresponding threshold. 次に、最適なハイパーパラメータセットと対応するしきい値を選択します。 0.73
Finally, we apply the model and the threshold to the test set. 最後に、テストセットにモデルとしきい値を適用します。 0.71
each model, we For それぞれのモデルで のために 0.61
We mainly conduct the experiments in 5-shot (5 training examples per in-scope intent) and 10shot (10 training examples per in-scope intent); we also report partial results on full-shot (all training examples per in-scope intent) scenario. 5発(インスコープインテントあたり5発)と10発(インスコープインテントあたり10発)の実験を主に実施し,フルショット(インスコープインテント毎のすべてのトレーニング例)について部分的な結果を報告する。 0.65
4.2 Overall Results Table 2 shows the results of few-shot intent detection on the test set for 5-shot and 10-shot settings.4 In both settings, the ID-OOS examples’ in-scope accuracy tends to be lower than that of the OOD-OOS examples, and the gap becomes larger for OOS recall and precision. 4.2 総合結果表2は、5ショットと10ショットの設定でテストセットで数発の意図を検出する結果を示している。4 どちらの設定でも、ID-OOSの例の顕微鏡内精度はOOD-OOSの例よりも低くなり、OOSのリコールと精度の差は大きくなる。 0.69
It is interesting to see that ToD-BERT, which is pretrained on several task-oriented dialog datasets, does not perform well in our scenario. 複数のタスク指向のダイアログデータセットで事前訓練されているToD-BERTは、我々のシナリオではうまく機能しない。 0.73
The results indicate that the pretrained models are much less robust on the IDOOS intent detection. 結果から,事前学習したモデルでは idoos インテント検出の頑健性が低下した。 0.65
Compared with the results on the two single domains of the CLINC-SingleDomain-O OS dataset, we can find that the performances become much worse on the larger finegrained BANKING77-OOS dataset. CLINC-SingleDomain-O OSデータセットの2つの単一ドメインの結果と比較すると,より微細なBANKING77-OOSデータセットでは,パフォーマンスがはるかに悪化していることが分かる。 0.70
Especially the in-scope accuracy and OOS precision are pretty low, even with more training examples. 特に、多くのトレーニング例でも、スコープ内精度とoos精度はかなり低いです。 0.62
This find- 4As the best δ is selected based on (Ain + Roos), the inscope accuracy in Table 2 could be different in the scenarios of OOD-OOS and ID-OOS (see Figure 2). この発見 4) 最適δは (Ain + Roos) に基づいて選択されるため, 表2の顕微鏡精度は OOD-OOS と ID-OOS のシナリオで異なる可能性がある(図2参照)。 0.75
英語(論文から抽出)日本語訳スコア
OOS recall BANKING77-OOS OOSリコール バンキング77-OOS 0.50
5-shot ID-OOS OOD-OOS 5発 ID-OOS OOD-OOS 0.58
10-shot ID-OOS 10発 ID-OOS 0.58
OOD-OOS Banking 54.1 ± 6.9 ALBERT 75.2 ± 2.9 BERT ELECTRA 64.8 ± 4.8 83.8 ± 1.7 RoBERTa 75.1 ± 2.3 ToD-BERT 63.1 ± 5.7 ALBERT 75.2 ± 2.9 BERT ELECTRA 75.5 ± 4.0 83.8 ± 1.7 RoBERTa 83.0 ± 1.6 ToD-BERT 77.8 ± 2.7 ALBERT 77.5 ± 1.7 BERT ELECTRA 79.5 ± 2.9 76.6 ± 0.9 RoBERTa 80.7 ± 2.5 ToD-BERT 77.8 ± 2.7 ALBERT 77.5 ± 1.7 BERT ELECTRA 79.5 ± 2.9 89.2 ± 1.3 RoBERTa 86.5 ± 2.6 ToD-BERT OOD-OOS 54.1 ± 6.9 alBERT 75.2 ± 2.9 ± 2.9 BERT ELECTRA 64.8 ± 4.8 ± 1.7 ± 1.7 ± 2.3 ±-BERT 63.1 ± 5.7 alBERT 75.2 ± 2.9 ± 2.9 BERT ELECTRA 75.5 ± 4.0 83.8 ± 1.7 ± 1.7 ± 1.6 ToD-BERT 77.8 ± 2.7 alBERT 77.5 ± 1.7 ± 1.7 BERT ELECTRA 79.5 ± 2.9 ± 2.9 ± 2.6 ± RoBERT 80.7 ±-DBERT 77.7 ± 2.7 ± 2.7 ±-BERT 77.5 ± 2.7 ± 2.7 ± 2.6 ± 2.6 ± 2.6 ± 2.6 ± 2.6 ± 2.6 ± 2.6 ± 2.6 ± 2.7 BERT ELECTRA 79.5 ±-BERT ^ ^ ^ ^ ^ ^ ^ ^ 0.50
In-scope accuracy Credit cards BANKING77-OOS 55.5 ± 8.1 74.1 ± 4.6 71.0 ± 7.3 64.5 ± 5.6 67.4 ± 4.2 55.5 ± 8.1 74.1 ± 4.6 71.0 ± 7.3 81.2 ± 4.0 75.8 ± 5.0 66.7 ± 7.8 80.3 ± 3.7 78.0 ± 2.5 81.0 ± 5.5 80.6 ± 0.9 66.7 ± 7.8 90.1 ± 1.9 88.6 ± 2.1 87.5 ± 3.3 86.5 ± 0.6 In-scope accuracy Credit cards BANKING77-OOS 55.5 ± 8.1 74.1 ± 4.6 71.0 ± 7.3 64.5 ± 5.6 67.4 ± 4.2 55.5 ± 8.1 74.1 ± 4.6 71.0 ± 7.3 81.2 ± 4.0 75.8 ± 5.0 66.7 ± 7.8 80.3 ± 3.7 78.0 ± 2.5 81.0 ± 5.5 80.6 ± 0.9 66.7 ± 7.8 90.1 ± 1.9 88.6 ± 2.1 87.5 ± 3.3 86.5 ± 0.6 0.51
20.3 ± 2.4 25.4 ± 3.6 30.9 ± 2.3 43.0 ± 2.9 35.5 ± 1.5 20.3 ± 2.4 39.0 ± 3.1 39.1 ± 2.7 62.1 ± 2.9 52.9 ± 1.5 27.3 ± 3.4 52.5 ± 1.7 40.1 ± 2.7 59.7 ± 1.2 54.3 ± 1.8 30.5 ± 6.5 64.2 ± 0.5 40.1 ± 2.7 70.3 ± 0.3 60.6 ± 1.8 20.3 ± 2.4 25.4 ± 3.6 30.9 ± 2.3 43.0 ± 2.9 35.5 ± 1.5 20.3 ± 2.4 39.0 ± 3.1 39.1 ± 2.7 62.1 ± 2.9 52.9 ± 1.5 27.3 ± 3.4 52.5 ± 1.7 40.1 ± 2.7 59.7 ± 1.2 54.3 ± 1.8 30.5 ± 6.5 64.2 ± 0.5 40.1 ± 2.7 70.3 ± 0.3 60.6 ± 1.8 0.51
Banking 86.3 ± 8.1 81.8 ± 10.5 89.4 ± 4.3 78.4 ± 6.2 75.8 ± 9.5 85.3 ± 5.4 93.4 ± 3.7 87.3 ± 4.3 97.0 ± 0.9 91.9 ± 1.0 77.6 ± 13.0 87.5 ± 9.2 85.2 ± 9.1 86.4 ± 6.3 79.5 ± 6.1 90.6 ± 4.0 96.8 ± 1.2 94.8 ± 1.7 95.6 ± 1.0 96.0 ± 0.5 Banking 86.3 ± 8.1 81.8 ± 10.5 89.4 ± 4.3 78.4 ± 6.2 75.8 ± 9.5 85.3 ± 5.4 93.4 ± 3.7 87.3 ± 4.3 97.0 ± 0.9 91.9 ± 1.0 77.6 ± 13.0 87.5 ± 9.2 85.2 ± 9.1 86.4 ± 6.3 79.5 ± 6.1 90.6 ± 4.0 96.8 ± 1.2 94.8 ± 1.7 95.6 ± 1.0 96.0 ± 0.5 0.51
Credit cards 75.9 ± 11.2 76.5 ± 9.7 75.8 ± 6.1 86.8 ± 5.4 72.3 ± 3.4 92.5 ± 4.0 95.5 ± 2.7 87.6 ± 4.2 96.7 ± 1.4 96.7 ± 0.9 79.8 ± 6.4 74.5 ± 6.9 86.5 ± 5.8 83.9 ± 6.9 70.2 ± 5.9 95.0 ± 3.4 91.1 ± 4.4 89.1 ± 2.2 94.6 ± 2.4 96.4 ± 0.5 Credit cards 75.9 ± 11.2 76.5 ± 9.7 75.8 ± 6.1 86.8 ± 5.4 72.3 ± 3.4 92.5 ± 4.0 95.5 ± 2.7 87.6 ± 4.2 96.7 ± 1.4 96.7 ± 0.9 79.8 ± 6.4 74.5 ± 6.9 86.5 ± 5.8 83.9 ± 6.9 70.2 ± 5.9 95.0 ± 3.4 91.1 ± 4.4 89.1 ± 2.2 94.6 ± 2.4 96.4 ± 0.5 0.52
89.5 ± 1.5 90.9 ± 0.6 87.5 ± 2.4 83.1 ± 4.3 82.7 ± 1.8 97.3 ± 2.5 94.1 ± 1.6 93.1 ± 4.3 93.9 ± 1.4 88.4 ± 1.7 87.6 ± 1.3 77.3 ± 3.2 84.0 ± 1.7 79.1 ± 1.7 76.9 ± 2.7 92.7 ± 6.3 91.4 ± 3.2 97.6 ± 1.0 94.0 ± 0.8 94.9 ± 0.9 89.5 ± 1.5 90.9 ± 0.6 87.5 ± 2.4 83.1 ± 4.3 82.7 ± 1.8 97.3 ± 2.5 94.1 ± 1.6 93.1 ± 4.3 93.9 ± 1.4 88.4 ± 1.7 87.6 ± 1.3 77.3 ± 3.2 84.0 ± 1.7 79.1 ± 1.7 76.9 ± 2.7 92.7 ± 6.3 91.4 ± 3.2 97.6 ± 1.0 94.0 ± 0.8 94.9 ± 0.9 0.51
Banking 57.9 ± 3.3 70.8 ± 2.5 65.1 ± 3.0 78.6 ± 1.5 69.4 ± 3.6 83.4 ± 1.7 88.8 ± 1.4 88.8 ± 2.1 92.9 ± 0.6 92.8 ± 0.6 72.2 ± 2.9 73.8 ± 1.7 75.4 ± 2.7 72.7 ± 1.5 75.4 ± 1.4 89.8 ± 1.0 90.0 ± 0.7 90.7 ± 1.2 95.4 ± 0.5 94.2 ± 1.2 Banking 57.9 ± 3.3 70.8 ± 2.5 65.1 ± 3.0 78.6 ± 1.5 69.4 ± 3.6 83.4 ± 1.7 88.8 ± 1.4 88.8 ± 2.1 92.9 ± 0.6 92.8 ± 0.6 72.2 ± 2.9 73.8 ± 1.7 75.4 ± 2.7 72.7 ± 1.5 75.4 ± 1.4 89.8 ± 1.0 90.0 ± 0.7 90.7 ± 1.2 95.4 ± 0.5 94.2 ± 1.2 0.51
OOS precision Credit cards BANKING77-OOS 55.8 ± 4.3 68.1 ± 3.2 67.1 ± 4.8 63.3 ± 3.4 61.3 ± 2.3 81.5 ± 3.1 88.4 ± 1.9 87.0 ± 2.7 91.4 ± 1.8 89.6 ± 2.1 64.0 ± 4.1 73.1 ± 3.3 73.3 ± 2.9 75.8 ± 5.2 71.9 ± 2.6 85.7 ± 2.7 95.5 ± 1.1 94.2 ± 1.1 94.0 ± 1.4 93.7 ± 0.3 OOS精度 Credit cards BANKING77-OOS 55.8 ± 4.3 68.1 ± 3.2 67.1 ± 4.8 63.3 ± 3.4 61.3 ± 2.3 81.5 ± 3.1 88.4 ± 1.9 87.0 ± 2.7 91.4 ± 1.8 89.6 ± 2.1 64.0 ± 4.1 73.1 ± 3.3 73.3 ± 2.9 75.8 ± 5.2 71.9 ± 2.6 85.7 ± 2.7 95.5 ± 1.1 94.2 ± 1.1 94.0 ± 1.4 93.7 ± 0.3 0.63
39.8 ± 0.7 41.3 ± 1.4 43.0 ± 0.8 46.3 ± 1.9 43.8 ± 0.1 39.9 ± 1.3 49.0 ± 1.8 48.7 ± 1.1 68.7 ± 2.2 66.0 ± 1.2 42.4 ± 1.3 50.8 ± 1.1 46.1 ± 1.1 55.8 ± 1.1 52.1 ± 1.2 47.1 ± 1.9 68.9 ± 1.0 47.9 ± 1.4 73.3 ± 1.5 63.3 ± 0.9 39.8 ± 0.7 41.3 ± 1.4 43.0 ± 0.8 46.3 ± 1.9 43.8 ± 0.1 39.9 ± 1.3 49.0 ± 1.8 48.7 ± 1.1 68.7 ± 2.2 66.0 ± 1.2 42.4 ± 1.3 50.8 ± 1.1 46.1 ± 1.1 55.8 ± 1.1 52.1 ± 1.2 47.1 ± 1.9 68.9 ± 1.0 47.9 ± 1.4 73.3 ± 1.5 63.3 ± 0.9 0.51
Table 2: Testing results on the “Banking” and “Credit cards” domains in CLINC-Single-Domain- OOS and BANKING77-OOS datasets. 表2: CLINC-Single-Domain- OOSとBANKING77-OOSデータセットの“Banking”と“Credit Card”ドメインのテスト結果。 0.73
Figure 1: Model confidence on the development set of the “Banking” domain in CLINC-Single-Domain- OOS dataset under 5-shot setting. 図1: 5ショット設定でCLINC-Single-Domain- OOSデータセットの“Banking”ドメインの開発セットに対するモデル信頼性。 0.79
ing encourages more attention to fine-grained intent detection with OOS examples. ingはOOSの例でより詳細なインテント検出に注意を向ける。 0.60
4.3 Analysis and Discussions One key to the OOS detection is a clear separation between in-scope and OOS examples in terms of the model confidence score (Zhang et al , 2020a). 4.3 分析と議論 OOS検出の鍵は、モデル信頼度スコア(Zhang et al , 2020a)の観点から、顕微鏡内とOOSサンプルを明確に分離することである。 0.77
Figure 1 illustrates the differences in confidence score distributions. 図1は信頼性スコアの分布の違いを示しています。 0.65
The confidence scores of IDOOS examples are close or mixed with the scores of in-scope intents, and are higher than the OODOOS examples, showing that separating ID-OOS examples is much harder than separating OODOOS examples. IDOOS例の信頼性スコアは、スコープ内インテントのスコアと近いか混ざり合っており、OODOOS例よりも高く、ID-OOS例の分離がOODOOS例の分離よりもはるかに難しいことを示している。 0.73
Among comparisons of the pretrained models, ALBERT performs worst, and RoBERTa performs better than other models in general since the confidence score received by in-scope examples is higher than that received by the OOS examples. 事前訓練されたモデルとの比較では、ALBERTは最悪であり、RoBERTaは他のモデルよりも優れている。
訳抜け防止モード: 事前訓練されたモデルの比較。 ALBERTは最悪です。 RoBERTaはそれ以来、他のモデルよりもパフォーマンスが良い。 inで受け取った信頼スコア - スコープの例はOOSの例よりも高い。
0.70
Figure 2 also shows similar results. 図2も同様の結果を示す。 0.81
We conjecture that pretrained models with more data, better architecture and objectives, etc., are relatively more robust to OOD-OOS and ID-OOS examples than the others. OOD-OOSやID-OOSでは,データ量やアーキテクチャ,目的といった事前学習モデルの方が比較的堅牢である,と推測する。 0.73
Comparing the RoBERTa 5-shot and full-shot confidence distributions, the ID-OOS confidence scores are improved, indicating over- RoBERTaの5ショットと全ショットの信頼性分布を比較すると、ID-OOSの信頼性スコアは改善され、オーバーオーバーを示す。
訳抜け防止モード: RoBERTa5ショットとフルショット信頼分布を比較したID - OOS信頼スコア 改善され、過剰を示す
0.70
confidence to separate semantically-related intents (i.e., ID-OOS examples). 意味的関連意図の分離に対する信頼(ID-OOSの例)。 0.61
Next, we inspect what ID-OOS examples are misclassified, and we take RoBERTa as an example as it performs better than other models in general. 次に、ID-OOSの例を誤って分類し、RoBERTaを例に挙げ、他のモデルよりも優れた性能を示す。 0.70
Figure 3 shows the confusion matrices of RoBERTa w.r.t. 図3はRoBERTa w.r.tの混乱行列を示している。 0.57
the two domains, under full-shot setting. フルショット設定の2つのドメイン。 0.68
We can see that the model is extremely likely to confuse ID-OOS intents with particular in-scope intents. このモデルは、特定のスコープ内インテントとID-OOSインテントを混乱させる可能性が極めて高い。 0.56
We expect this is from our IDOOS design, and the trend is consistent across the evaluated models. これは私たちのIDOOS設計によるもので、評価モデル全体で傾向は一貫しています。 0.69
Now one question arises: what causes the model’s mistakes? モデルのミスの原因は何なのか? 0.49
One presumable source is the keyword overlap. 予測可能なソースのひとつにキーワードのオーバーラップがある。 0.46
We checked unigram overlap, after removing stop words, for the intent pairs with the three darkest colors in banking and four darkest colors in credit cards based on Figure 3. 図3に基づいて,バンキングの最も暗い3色とクレジットカードの最も暗い4色を意図するペアに対して,ストップワードを取り除いた後に,ユニグラム重なりを確認した。 0.67
We then masked top-5 overlapped unigrams from the corresponding intent examples in the development set using the mask token in the RoBERTa masked language model pretraining and conducted the same evaluation.5 Column 2 and column 4 5We did not mask the top-10 or top-15 overlapped unigrams, as there are already many masked tokens in the user utterance when setting the threshold to 5. 次に,robertaマスク付き言語モデルにおけるマスクトークンを用いた開発例から,top-5オーバーラップしたユニグラムをマスキングし,同じ評価を行った。5コラム2とカラム45では,しきい値設定時にすでに多数のマスク付きトークンが存在するため,top10またはtop-15オーバーラップしたユニグラムをマスキングしなかった。 0.72
See also Table 3. 表3も参照。 0.72
英語(論文から抽出)日本語訳スコア
Figure 2: Development set results on the “Banking” domain in CLINC-Single-Domain- OOS dataset under 5-shot setting. 図2: 5ショット設定でのCLINC-Single-Domain- OOSデータセットの“Banking”ドメインに関する開発セット。 0.72
Figure 3: Full-shot confusion matrices on the development set with and without masking (“Banking”, RoBERTa). 図3: マスクのない開発セットの完全な混乱行列("Banking", RoBERTa)。
訳抜け防止モード: 図3 : 開発セットにおける全ショット混乱行列 そして、マスクなしで(”banking ”, roberta)。
0.71
Vertical axis: ID-OOS; horizontal axis: in-scope. 垂直軸: ID-OOS、水平軸:顕微鏡内。 0.71
For the in-scope intents, we only show the predicted ones. 顕微鏡内インテントについては,予測されたインテントのみを示す。 0.46
in Figure 3 show that most of the confusing intent pairs are still misclassified even without the keyword overlap, while we find some exceptions (rewards_balance and redeem_rewards) in credit cards. 図3では、混乱したインテントペアのほとんどが、キーワードの重複なしにいまだに誤分類されているのに対して、クレジットカードにはいくつかの例外(rewards_ Balanceとreeem_rewards)があります。 0.54
Table 3 shows two intent pairs with the overlapped words and their masked ID-OOS examples. 表3は、重複した単語と、そのマスク付きID-OOS例の2つの意図対を示す。 0.61
It is surprising that the examples show counterintuitive results. その例が直感に反する結果を示すのは驚きだ。 0.69
That is, even with the aggressive masking, the model still tends to assign high confidence scores to some other in-scope intents. つまり、アグレッシブなマスキングであっても、モデルは他のスコープ内の意図に高い信頼度を割り当てる傾向があります。 0.70
Intuitively, we expect the model to be less confident with insufficient information and more confident to separate semantically relevant samples with different intents. 直感的には、モデルが不十分な情報に対して自信を欠き、異なる意図で意味的に関係のあるサンプルを分離する自信が増すことを期待する。 0.53
Inspired by the recent success of contrastive learning methods (He et al , 2020; Radford et al , 2021), which aim to enforce examples within the same class close and examples from different classes apart, and we have introduced these those approaches into the transformer models during fine-tuning phase on few-shot intent detection with OOS samples. 近年のコントラスト学習法(he et al , 2020; radford et al , 2021)の成功に触発されて,同一クラス内の例と異なるクラスからの例を分離して実施し,これらのアプローチをoosサンプルを用いた少数ショットインテント検出における微調整フェーズ中にトランスフォーマモデルに導入した。 0.84
However, we did not achieve promising improvements on the fine-grained IDOOS setting. しかし、粒度の細かい IDOOS 設定では有望な改善は得られなかった。 0.62
We leave more explorations of such methods to future work. 我々はこうした方法のさらなる探究を将来の研究に任せる。 0.67
As explained in Section 2, we use a confidencebased method with a threshold interval of 0.1 to fil- 第2節で説明されているように、しきい値間隔0.1から fil の信頼に基づく手法を用いる。 0.68
Intent pair Unigram overlap 直対ユニグラム重なり 0.41
Masked ID-OOS example Masked ID-OOS の例 0.63
Intent pair Unigram overlap 直対ユニグラム重なり 0.41
Masked ID-OOS example Masked ID-OOS の例 0.63
bill_due & bill_balance bill (60), pay (9), need (9), know (8), due (7) i [mask] to [mask] what day i [mask] to [mask] my water [mask] → bill_balance (confidence: 0.84) improve_credit_score & credit_score credit (99), score (76), tell (7), want (3), like (3) i’d [mask] to make my [mask] [mask] better → credit_limit_change (confidence: 0.86) bill_due & bill_ Balance bill (60), pay (9), need (9), know (8), due (7) i [mask] to [mask] What day i [mask] to [mask] my water [mask] → bill_balance (confidence: 0.84) improve_credit_score & credit_score credit (99), score (76), tell (7), want (3) like (3) i’d [mask] to make my [mask] [mask] better → credit_limit_change (confidence: 0.86) 0.94
Table 3: Examples investigated for the unigram overlap analysis. 表3:ユニグラム重なり解析のために検討された例。 0.71
The overlap frequency is also presented. 重なりの周波数も示される。 0.73
ter out OOS examples for evaluation (Zhang et al , 2020a; Wu et al , 2020). 評価のためのoosの例(zhang et al , 2020a; wu et al , 2020)。 0.74
However, the granularity of interval is important for fine-grained intent detection with OOS examples; thus, further attention to better handling OOS examples is also required. しかし,OOSの例では微細な意図検出には間隔の粒度が重要であり,OOSの例をよりよく扱うためにはさらに注意が必要である。 0.76
5 Conclusion We have investigated the robustness of the pretrained Transformers on the few-shot intent detection task with OOS samples. 5 結論 我々は oos サンプルを用いたマイナショットインテント検出タスクにおける予習トランスフォーマーのロバスト性について検討した。 0.62
Our results show that pretrained models are not robust on ID-OOS examples, and both the OOS detection tasks are challenging on the scenario of fine-grained intent detection. 以上の結果から,事前学習したモデルはID-OOSの例では堅牢ではなく,詳細な意図検出のシナリオでは両方のOOS検出タスクが困難であることが示唆された。
訳抜け防止モード: 私たちの結果は 事前訓練されたモデルは ID では堅牢ではない -OOS例、 どちらのOOS検出タスクも、きめ細かいインテント検出のシナリオでは難しい。
0.68
Our work encourages more attention and future work to be put on the above findings. 我々の研究は、上記の知見により多くの注意と今後の作業を促す。 0.66
英語(論文から抽出)日本語訳スコア
References Roee Aharoni and Yoav Goldberg. Roee Aharoni と Yoav Goldberg を参照。 0.85
2020. Unsupervised Domain Clusters in Pretrained Language Models. 2020. 事前訓練された言語モデルにおける教師なしドメインクラスタ。 0.68
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), pages 7747–7763. 第58回計算言語学会年次大会(ACL)において、7747-7763頁。 0.55
Iñigo Casanueva, Tadas Temˇcinas, Daniela Gerz, Matthew Henderson, and Ivan Vuli´c. イニゴ・カサヌエヴァ、アディス・テムシナス、ダナ・ゲルツ、マシュー・ヘンダーソン、イヴァン・ヴリなどがいる。 0.42
2020. Efficient intent detection with dual sentence encoders. 2020. 二重文エンコーダによる効率的な意図検出 0.76
In Proceedings of the 2nd Workshop on Natural Language Processing for Conversational AI, pages 38–45. 第2回自然言語処理・会話型AIワークショップ"Proceedings of the 2nd Workshop on Natural Language Processing for Conversational AI, page 38–45。
訳抜け防止モード: 会話型AIのための自然言語処理に関する第2回ワークショップの開催報告 38-45頁。
0.73
Paulo Cavalin, Victor Henrique Alves Ribeiro, Ana Appel, and Claudio Pinhanez. Paulo Cavalin、Victor Henrique Alves Ribeiro、Ana Appel、Claudio Pinhanez。 0.69
2020. Improving out-ofscope detection in intent classification by using embeddings of the word graph space of the classes. 2020. クラスの単語グラフ空間の埋め込みを用いた意図分類におけるスコープ外検出の改善 0.82
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3952–3961. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録3952-3961頁。 0.70
Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。 0.85
2020. ELECTRA: Pretraining Text Encoders as Discriminators Rather In 8th International Conference Than Generators. 2020. ELECTRA: 8th International Conference Than Generators において、テキストエンコーダを差別者として訓練する。 0.74
on Learning Representations (ICLR). ICLR (Learning Representations) の略。 0.65
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.76
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pages 4171–4186. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), page 4171–4186。 0.92
Jianfeng Gao, Michel Galley, and Lihong Li. Jianfeng Gao、Michel Galley、Lihong Li。 0.63
2018. In The Neural approaches to conversational ai. 2018. 会話型aiへの神経的なアプローチです 0.74
41st International ACM SIGIR Conference on Research & Development in Information Retrieval, pages 1371–1374. 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, page 1371–1374 0.89
Donghoon Ham, Jeong-Gwan Lee, Youngsoo Jang, and Kee-Eung Kim. Donghoon Ham、Jeong-Gwan Lee、Youngsoo Jang、Kee-Eung Kim。 0.87
2020. End-to-end neural pipeline for goal-oriented dialogue systems using gpt-2. 2020. gpt-2を用いたゴール指向対話システムのためのエンドツーエンドニューラルネットワークパイプライン 0.76
In ACL, pages 583–592. ACL 583-592頁。 0.65
Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick 0.64
2020. Momentum contrast for unsupervised visual representation learning. 2020. 教師なし視覚表現学習におけるモメンタムコントラスト 0.74
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9729– 9738. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), page 9729–9738。 0.86
Dan Hendrycks and Kevin Gimpel. ダン・ヘンドリックスとケビン・ギンペル 0.42
2017. A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. 2017. ニューラルネットワークにおける誤分類および分布外例検出のためのベースライン 0.78
In 5th International Conference on Learning Representations (ICLR). 第5回国際学習表現会議(ICLR)に参加。 0.83
Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, and Dawn Song. Dan Hendrycks、Xiaoyuan Liu、Eric Wallace、Adam Dziedzic、Rishabh Krishnan、Dawn Song。 0.65
2020a. Pretrained Transformers Improve Out-ofDistribution Robustness. 2020a 事前訓練されたトランスフォーマーは分散のロバスト性を改善する。 0.57
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), pages 2744–2751. 第58回計算言語学会(acl)年次総会の議事録2744-2751頁。 0.56
Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh Krishnan, and Dawn Song. Dan Hendrycks、Xiaoyuan Liu、Eric Wallace、Adam Dziedzic、Rishabh Krishnan、Dawn Song。 0.65
Pretrained Transformers Improve Out2020b. プリトレーニングトランスフォーマーは2020年より改良された。 0.37
arXiv preprint of-Distribution Robustness. arXiv preprint of-Distribution Robustness 0.93
arXiv:2004.06100. arxiv: 2004.06100。 0.28
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut 0.69
2020. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. 2020. ALBERT: 言語表現の自己教師型学習のためのLite BERT。 0.83
In 8th International Conference on Learning Representations (ICLR). 第8回国際学習表現会議(ICLR)に参加。 0.82
Stefan Larson, Anish Mahendran, Joseph J. Peper, Christopher Clarke, Andrew Lee, Parker Hill, Jonathan K. Kummerfeld, Kevin Leach, Michael A. Laurenzano, Lingjia Tang, and Jason Mars. Stefan Larson、Anish Mahendran、Joseph J. Peper、Christopher Clarke、Andrew Lee、Parker Hill、Jonathan K. Kummerfeld、Kevin Leach、Michael A. Laurenzano、Lingjia Tang、Jason Mars。 0.80
2019. An Evaluation Dataset for Intent Classification and In Proceedings of the Out-of-Scope Prediction. 2019. アウト・オブ・スコープ予測のインテント分類と推論のための評価データセット 0.81
2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP), pages 1311–1316. 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP), page 1311–1316 0.85
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. 2019. RoBERTa: ロバストに最適化されたBERT事前トレーニングアプローチ。 0.74
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. Razvan Pascanu、Tomas Mikolov、Yoshua Bengio。 0.58
2013. On the difficulty of training recurrent In Proceedings of the 30th Interneural networks. 2013. 第30回インターニューラルネットワーク研究会におけるリカレント訓練の難しさについて 0.77
national Conference on Machine Learning (ICML), pages 1310–1318. National Conference on Machine Learning (ICML) 1310–1318頁。 0.82
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al 2021. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al 2021 0.82
Learning transferable visual models from natural language supervision. 自然言語の監視から伝達可能な視覚モデルを学ぶ。 0.71
Image, 2:T2. Lei Shu, Hu Xu, and Bing Liu. 画像は2:T2。 Lei Shu、Hu Xu、Bing Liu。 0.69
2017. DOC: Deep Open Classification of Text Documents. 2017. DOC (Deep Open Classification of Text Documents) の略。 0.79
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2911– 2916. 2017年自然言語処理における経験的手法に関する会議(emnlp)の議事録2911-2916頁。 0.74
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, et al 2019. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, et al 2019 0.82
Huggingface’s transformers: State-of-the-art natural language processing. Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.74
arXiv preprint arXiv:1910.03771. arXiv preprint arXiv:1910.03771 0.71
Chien-Sheng Wu, Steven Hoi, Richard Socher, and Caiming Xiong. Chien-Sheng Wu、Steven Hoi、Richard Socher、Caiming Xiong。 0.82
2020. ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues. 2020. ToD-BERT:タスク指向対話のための訓練済み自然言語理解。 0.73
Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における経験的手法に関する2020年会議(EMNLP)の成果 0.78
Chien-Sheng Wu, Andrea Madotto, Ehsan HosseiniAsl, Caiming Xiong, Richard Socher, and Pascale Fung. Chien-Sheng Wu, Andrea Madotto, Ehsan HosseiniAsl, Caiming Xiong, Richard Socher, Pascale Fung 0.76
2019. Transferable multi-domain state generator for task-oriented dialogue systems. 2019. タスク指向対話システムのための転送可能なマルチドメイン状態生成器 0.71
ACL. ACL。 0.82
英語(論文から抽出)日本語訳スコア
Jianguo Zhang, Kazuma Hashimoto, Wenhao Liu, Chien-Sheng Wu, Yao Wan, S Yu Philip, Richard Socher, and Caiming Xiong. Jianguo Zhang, Kuma Hashimoto, Wenhao Liu, Chien-Sheng Wu, Yao Wan, S Yu Philip, Richard Socher, Caiming Xiong 0.78
2020a. Discriminative nearest neighbor few-shot intent detection by transferring natural language inference. 2020a 自然言語推論の変換による識別的近接数ショットインテント検出 0.68
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 5064–5082. The Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 5064–5082。 0.84
Jianguo Zhang, Kazuma Hashimoto, Chien-Sheng Wu, Yao Wang, S Yu Philip, Richard Socher, and Caiming Xiong. Jianguo Zhang, Kuma Hashimoto, Chien-Sheng Wu, Yao Wang, S Yu Philip, Richard Socher, Caiming Xiong 0.77
2020b. Find or classify? 2020年。 発見か分類か? 0.70
dual strategy for slot-value predictions on multi-domain dialog state In Proceedings of the Ninth Joint Contracking. マルチドメインダイアログ状態におけるスロット値予測のための二重戦略 第9関節追跡の証明 0.67
ference on Lexical and Computational Semantics, pages 154–167. 英訳: lexical and computational semantics, pages 154–167。 0.76
Yinhe Zheng, Guanyi Chen, and Minlie Huang. Yinhe Zheng、Guanyi Chen、Minlie Huang。 0.67
2019. Out-of-domain Detection for Natural Language UnarXiv preprint derstanding in Dialog Systems. 2019. 対話システムにおける自然言語UnarXivプリプリントのドメイン外検出 0.80
arXiv:1909.03862. arXiv:1909.03862。 0.49
英語(論文から抽出)日本語訳スコア
Appendix A Dataset Construction Table 4 and Table 5 show which intent labels are treated as ID-OOS for the CLINC dataset and BANKING77 dataset, respectively. Appendix A Dataset Construction Table 4とTable 5は、CLINCデータセットとBANKING77データセットのID-OOSとして、どのインテントラベルが扱われるかを示す。
訳抜け防止モード: Appendix A Dataset Construction Table 4 and Table 5 shows which intent labels それぞれ、CLINCデータセットのOOSとBANKING77データセットのIDとして扱われる。
0.87
B More Results Figure 4 shows the model confidence level on the development set of the “Credit cards” domain. B さらなる結果 図4は、”Credit card”ドメインの開発セットにおけるモデルの信頼性レベルを示しています。 0.84
Figure 5 shows the tSNE visualizations for ID-OOS intents in the “Banking” domain. 図5は“Banking”ドメインにおけるID-OOSインテントのtSNE視覚化を示しています。 0.70
The models struggle to classify the ID-OOS intents even with more data. モデルは、より多くのデータを使ってID-OOSの意図を分類するのに苦労している。 0.51
英語(論文から抽出)日本語訳スコア
Domain Banking Credit cards 藩銀行 クレジットカード 0.64
IN-OOS balance, bill_due, min_payment, freeze_account, transfer report_lost_card, improve_credit_score , rewards_balance, application_status, replacement_card_dur ation IN-OOS balance, bill_due, min_payment, freeze_account, transfer report_lost_card, improve_credit_score , rewards_ Balance, application_status, replacement_card_dur ation 0.53
In-scope account_blocked, bill_balance, interest_rate, order_checks, pay_bill, pin_change, report_fraud, routing, spending_history, transactions credit_score, credit_limit, new_card, card_declined, international_fees, apr, redeem_rewards, credit_limit change, damaged_card expiration_date in-scope account_blocked, bill_balance, interest_rate, order_checks, pay_bill, pin_change, report_fraud, routing, spending_history, transactions credit_score, credit_limit, new_card, card_declined, international_fees, apr, redeem_rewards, credit_limit change, damage_card expiration_date 0.61
Table 4: Data split of the ID-OOS and in-scope intents for the CLINC dataset. 表4: ID-OOSとCLINCデータセットのスコープ内インテントのデータ分割。 0.77
ID-OOS “pin_blocked”, “top_up_by_cash_or_ch eque” “top_up_by_card_charg e”, “verify_source_of_fun ds”, “transfer_into_accoun t”, “exchange_rate”, “card_delivery_estima te”, “card_not_working”, “top_up_by_bank_trans fer_charge”, “age_limit”, “terminate_account”, “get_physical_card”, “passcode_forgotten”, “verify_my_identity”, “topping_up_by_card”, “unable_to_verify_ide ntity”, “getting_virtual_card ”, “top_up_limits”, “get_disposable_virtu al_card”, “receiving_money”, “atm_support”, “compromised_card”, “lost_or_stolen_card”, “card_swallowed”, “card_acceptance”, “virtual_card_not_wor king”, “contactless_not_work ing” ID-OOS “pin_blocked”, “top_up_by_cash_or_ch eque” “top_up_by_card_charg e”, “verify_source_of_fun ds”, “transfer_into_accoun t”, “exchange_rate”, “card_delivery_estima te”, “card_not_working”, “top_up_by_bank_trans fer_charge”, “age_limit”, “terminate_account”, “get_physical_card”, “passcode_forgotten”, “verify_my_identity”, “topping_up_by_card”, “unable_to_verify_ide ntity”, “getting_virtual_card ”, “top_up_limits”, “get_disposable_virtu al_card”, “receiving_money”, “atm_support”, “compromised_card”, “lost_or_stolen_card”, “card_swallowed”, “card_acceptance”, “virtual_card_not_wor king”, “contactless_not_work ing” 0.61
Table 5: Data split of the ID-OOS intents for the BANKING77 dataset. 表5: BANKING77データセットのID-OOSインテントのデータ分割。 0.83
Where 27 intents are randomly selected as ID-OOS intents and the rest are treated as in-scope intents. 27のインテントがID-OOSインテントとしてランダムに選択され、残りがインスコープインテントとして扱われる。 0.50
Figure 4: Model confidence on the development set of the “Credit cards” domain in CLINC-Single-Domain- OOS dataset under 5-shot setting. 図4: 5ショット設定でCLINC-Single-Domain- OOSデータセットの“Credit Card”ドメインの開発セットに対するモデル信頼性。 0.77
Figure 5: RoBERTa (first row) and ELECTRA (second row) tSNE visualizations on the development set of the “Banking” domain in CLINC-Single-Domain- OOS dataset. 図5:RoBERTa(1行目)とELECTRA(2行目) tSNEがCLINC-Single-Domain- OOSデータセットの“Banking”ドメインの開発セットを視覚化します。 0.75
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。