# (参考訳) Disfl-QA: 質問回答における分散を理解するためのベンチマークデータセット [全文訳有]

Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question Answering ( http://arxiv.org/abs/2106.04016v1 )

ライセンス: CC BY 4.0
Aditya Gupta, Jiacheng Xu, Shyam Upadhyay, Diyi Yang, Manaal Faruqui(参考訳) 拡散は、人間の会話においてユビキタスであるにもかかわらず、NLPでは未研究のトピックである。 これは主に、分散を含むデータセットの欠如によるものだ。 本稿では,SQuAD の派生である Disfl-QA を用いた質問応答データセットを提案する。 Disfl-QAには、以前のデータセットに必要なものよりも、テキストのより包括的な理解を必要とする、さまざまな困難障害が含まれている。 ゼロショット環境でのDisfl-QAテストでは,既存の最先端質問応答モデルの性能が著しく低下し,データ拡張手法が部分的に性能低下を回復し,さらに細調整に金データを用いることの有効性を示した。 NLPモデルが堅牢になるためには,大規模な分散データセットが必要である,と我々は主張する。 データセットは、https://github.com/g oogle-research-datas ets/disfl-qaで公開されている。

Disfluencies is an under-studied topic in NLP, even though it is ubiquitous in human conversation. This is largely due to the lack of datasets containing disfluencies. In this paper, we present a new challenge question answering dataset, Disfl-QA, a derivative of SQuAD, where humans introduce contextual disfluencies in previously fluent questions. Disfl-QA contains a variety of challenging disfluencies that require a more comprehensive understanding of the text than what was necessary in prior datasets. Experiments show that the performance of existing state-of-the-art question answering models degrades significantly when tested on Disfl-QA in a zero-shot setting.We show data augmentation methods partially recover the loss in performance and also demonstrate the efficacy of using gold data for fine-tuning. We argue that we need large-scale disfluency datasets in order for NLP models to be robust to them. The dataset is publicly available at: https://github.com/g oogle-research-datas ets/disfl-qa.
公開日: Tue, 8 Jun 2021 00:03:40 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
DISFL-QA: A Benchmark Dataset for Understanding Disfluencies DISFL-QA: 分散を理解するためのベンチマークデータセット 0.56
in Question Answering In Question Answering 0.84
Diyi Yang♣ Manaal Faruqui♠ マナール・ファルーキ(manaal faruqui)の略。 0.23
Aditya Gupta♠ Aditya Gupta 0.81
Jiacheng Xu੦∗ Shyam Upadhyay♠ ♠Google Assistant Jiacheng Xu'∗ Shyam Upadhyay! 0.57
੦The University of Texas at Austin ♣Georgia Institute of Technology テキサス大学オースティン校 ジョージア工科大学 0.48
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 6 1 0 4 0 1 v 6 1 0 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
disfl-qa@google.com disfl-qa@google.com 0.59
Abstract Disfluencies is an under-studied topic in NLP, even though it is ubiquitous in human conversation. 概要 拡散は、人間の会話においてユビキタスであるにもかかわらず、NLPでは未研究のトピックである。 0.49
This is largely due to the lack of datasets containing disfluencies. これは主に、分散を含むデータセットの欠如によるものだ。 0.57
In this paper, we present a new challenge question answering dataset, DISFL-QA, a derivative of SQUAD, where humans introduce contextual disfluencies in previously fluent questions. 本稿では,SQUAD の派生である DisFL-QA という新たな課題質問応答データセットを提案する。 0.44
DISFL-QA contains a variety of challenging disfluencies that require a more comprehensive understanding of the text than what was necessary in prior datasets. DISFL-QAには、以前のデータセットに必要なものよりも、テキストのより包括的な理解を必要とする、さまざまな難題が含まれている。 0.58
Experiments show that the performance of existing state-of-the-art question answering models degrades significantly when tested on DISFLQA in a zero-shot setting. 実験の結果, ゼロショット環境でのDisFLQA実験では, 既存の質問応答モデルの性能が著しく低下することがわかった。 0.63
We show data augmentation methods partially recover the loss in performance and also demonstrate the efficacy of using gold data for fine-tuning. 性能の低下を部分的に回復するデータ拡張手法を示し, 金データを用いた微調整の有効性を示す。 0.75
We argue that we need large-scale disfluency datasets in order for NLP models to be robust is publicly available at: https://github.com/ google-research-data sets/disfl-qa. NLPモデルが堅牢になるためには,大規模な分散データセットが必要である,と私たちは主張する。 0.65
Introduction The dataset はじめに データセット 0.63
to them. 1 During conversations, humans do not always premeditate exactly what they are going to say; thus a natural conversation often includes interruptions like repetitions, restarts, or corrections. 彼らに したがって自然な会話には、繰り返し、再起動、修正といった中断がしばしば含まれます。
訳抜け防止モード: 彼らに 1 会話中、人間は必ずしも自分が言っていることを正確に熟考するとは限らない したがって、自然な会話は繰り返し、再起動、修正のような中断を含むことが多い。
Together these phenomena are referred to as disfluencies (Shriberg, 1994). これらの現象を合わせて、不流動 (disfluencies) と呼ばれる(shriberg, 1994)。 0.64
Figure 1a shows different types of conventional disfluencies in an utterance, as described by Shriberg (1994). 図1aは、Shriberg (1994) で説明されているように、発話における従来の不一致の異なる種類を示している。
訳抜け防止モード: 図1aは、発話における従来の不一致の異なる種類を示す。 Shriberg (1994) による。
With the growing popularity of voice assistants, such disfluencies are of particular interest for goaloriented or information seeking dialogue agents, because an NLU system, trained on fluent data, can easily get misled due to their presence. 音声アシスタントの普及に伴い、このような不一致は、特に目標指向や対話エージェントを求める情報に特に関心がある。
訳抜け防止モード: 音声アシスタントの人気が高まる中、このような不利さは、ゴール志向や対話エージェントを求める情報に特に関心を寄せている。 nluシステムは、フルーエントなデータに基づいて訓練されており、その存在のために簡単に誤解される可能性がある。
Figure 1b shows how the presence of disfluencies in a 図 1b は、a における分散の存在を示す 0.67
∗Work done during an internship at Google. * googleでのインターンシップ中に行われた仕事。 0.61
When is Eas ugh Easter this year? eas ugh easterは今年、いつですか? 0.79
Repetition Correction When is Lent I meant Easter this year? 反復補正 今年のイースターはいつですか? 0.54
Restarts How much no wait when is Easter this year? 復活 今年のイースターは どれ位待ちきれない? 0.58
(a) Conventional categories of Disfluencies. (a)従来の不純物分類。 0.59
The reparandum (words intended to be corrected or ignored), interregnum (optional discourse cues) and repair are marked. reparandum (修正または無視を意図した単語)、interregnum (optional discourse cues)、および repairがマークされている。 0.77
Passage: The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who in the 10th and 11th centuries gave their name to Normandy, a region in France. ノルマン人(ノルマン人、ノルマン語: Nourmands、フランス語: Normands、ラテン語: Normanni)は、10世紀から11世紀にノルマンディーに改名した人物である。
訳抜け防止モード: ノルマン人(ノルマン語: Nourmands、フランス語: Normands、ラテン語: Normanni)は、ノルマン人である。 10世紀から11世紀にかけて、その名称はフランスのノルマンディー(Normandy)に渡された。
They were descended from Norse (”Norman” comes from ”Norseman”) raiders and pirates from Denmark, Iceland and Norway who, under their leader Rollo, . 彼らはノルド人(ノルド人)の子孫で、デンマーク、アイスランド、ノルウェーからの襲撃者や海賊で、その指導者ロロの下にいた。
訳抜け防止モード: 彼らはノース人の子孫だった (「ノルマン」は「ノルマン」から来ている) デンマーク、アイスランド、ノルウェーの海賊もロロの下で活動している。
. . q1: In what country is Normandy located? . . q1: ノルマンディーはどの国にありますか? 0.79
dq1: In what country is Norse found no wait Normandy not Norse? dq1:どの国でノルマンディーはノルマンディーではなく、ノルマンディーは見つからないのか? 0.54
T5(q1): France  T5(dq1): Denmark  T5(q2): 10th and 11th centuries  T5(dq2): Denmark, Iceland and Norway  T5(q1):フランス T5(dq1):デンマーク T5(q2):10世紀から11世紀 デンマーク T5(dq2):デンマーク、アイスランド、ノルウェー 0.90
q2: When were the Normans in Normandy? q2:ノルマン人はいつノルマンディーに? 0.68
dq2: From which countries no tell me when were the Normans in Normandy? Dq2:どの国からノルマンディーのノルマン人が来たのかわからない。 0.67
(b) Contextualized Disfluencies in DISFL-QA (§2). (b)DisFL-QAにおける文脈的分散 0.58
(a) Categories of disfluencies (Shriberg, Figure 1: 1994) (b) A passage and questions (qi) from SQUAD, along with their disfluent versions (dqi) and predictions from a T5-QA model. a) 分散のカテゴリ (Shriberg, Figure 1: 1994) (b) SQUAD からの通路と質問 (qi) と、その非流動バージョン (dqi) と T5-QA モデルからの予測。 0.73
question answering (QA) setting, namely SQUAD (Rajpurkar et al , 2018), affects the prediction of a state-of-the-art T5 model (Raffel et al , 2020). 質問応答(QA)設定、すなわちSQUAD(Rajpurkar et al , 2018)は最先端のT5モデルの予測に影響を与える(Raffel et al , 2020)。 0.79
For example, the original question q1 is seeking an answer about the location of Normandy. 例えば、元の質問 q1 はノルマンディーの位置について答えを求めている。 0.75
In the disfluent version dq1 (which is semantically equivalent to q1), the user starts asking about Norse and then corrects themselves to ask about the Normandy instead. ゆるやかなバージョンdq1(q1と意味的に等価)では、ユーザーはノルマンディーについて尋ね始め、代わりにノルマンディーについて尋ねるように修正する。
訳抜け防止モード: 逆流バージョンdq1(意味的にはq1と等価)では、 ユーザはNorseについて尋ね始め、代わりにNormandyについて尋ねるように修正する。
The presence of this correctional disfluency confuses the QA model, which tend to rely on shallow textual cues from question for making predictions. この補正的不流動性の存在は、予測を行う上で問題の浅いテキストの手がかりに依存する傾向があるqaモデルを混乱させる。
訳抜け防止モード: この補正拡散の存在はQAモデルと混同する。 予測をするために 疑問からの浅い文章の手がかりに頼る傾向があります
Unfortunately, research in NLP and speech community has been impeded by the lack of curated datasets containing such disfluencies. 残念ながら NLPと音声コミュニティの研究は、そのような不一致を含むキュレートされたデータセットの欠如によって妨げられている。 0.57
The datasets available today are mostly conversational in nature, and span a limited number of very specific domains (e g , telephone conversations, court proceedings) (Godfrey et al , 1992; Zayats et al , 2014). 今日入手可能なデータセットは、本質的には会話的であり、非常に特定のドメイン(例えば、電話の会話、裁判所の手続き)が限られている(Godfrey et al , 1992; Zayats et al , 2014)。 0.77
Furthermore, only a small fraction of the utterances in these datasets contain disfluencies, with a limited and skewed distribution of disfluIn the most popular dataset in the encies types. さらに、これらのデータセットの発話のごく一部に、エンシー型における最もポピュラーなデータセットであるディスフルの限定的かつ歪んだ分布があるディスフルエンシーが含まれている。 0.62
literature, the SWITCHBOARD corpus (Godfrey et al , 1992), only 5.9% of the words are disfluencies (Charniak and Johnson, 2001), of which > 50% are repetitions (Shriberg, 1996), which has been shown to be the relatively simpler form of disfluencies (Zayats et al , 2014; Jamshid Lou et al , 2018; Zayats et al , 2019). 文献によると、SWITCHBOARD corpus (Godfrey et al , 1992) の単語の5.9%は反響(Charniak and Johnson, 2001)であり、50%は反復(Shriberg, 1996)であり、これは比較的単純な反響(Zayats et al , 2014; Jamshid Lou et al , 2018; Zayats et al , 2019)である。 0.71
To fill this gap, we present DISFL-QA, the first dataset containing contextual disfluencies in an information seeking setting, namely question answering over Wikipedia passages. このギャップを埋めるために,情報検索設定における文脈的不整合を含む最初のデータセットである disfl-qa を提案する。 0.71
DISFL-QA is constructed by asking human raters to insert disfluencies in questions from SQUAD-v2, a popular question answering dataset, using the passage and remaining questions as context. DISFL-QAは、一般的な質問応答データセットであるSQUAD-v2からの質問に、そのパスと残りの質問をコンテキストとして挿入するよう、人間のレーダに依頼することで構成される。 0.53
These contextual disfluencies lend naturalness to DISFL-QA, and challenge models relying on shallow matching between question and context to predict an answer. これらの文脈分散は、DIFL-QAに自然性を与え、答えを予測するために質問と文脈の浅いマッチングに依存する。
訳抜け防止モード: これらの文脈不一致はDisFL-QAに自然性を与え、質問と文脈の浅いマッチングに依存する挑戦モデル 答えを予測できるのです
Some key properties of DISFL-QA are: DISFL-QAの重要な性質は次のとおりである。 0.46
• DISFL-QA is a targeted dataset for disfluencies, in which all questions (≈12k) contain disfluencies, making for a much larger disfluent test set than prior datasets. • DISFL-QAは、すべての質問(12k)に障害が含まれており、以前のデータセットよりもはるかに大きな不適切なテストセットとなる。 0.66
• Over 90% of the disfluencies in DISFLQA are corrections or restarts, making it a much harder test set for disfluency correction (§2.2). • disflqaのディフルエンシーの90%以上が修正またはリスタートであり、ディフルエンシー補正のためのテストセットはずっと難しい(2.2)。 0.79
• DISFL-QA contains wider diversity in terms of semantic distractors than earlier disfluency datasets, and newer phenomenon such as coreference between the reparandum and the repair (§2.3). • DISFL-QAは、従来の拡散データセットよりもセマンティック・トラクタの幅が広く、また、補修と補修のコア参照のような新しい現象を含んでいる(2.3)。 0.61
We experimentally reveal the brittleness of state-of-the-art LM based QA models when tested on DISFL-QA in zero-shot setting (§4.1). 実験的に明らかに ゼロショット設定(4.1)でDisFL-QAでテストする場合、最先端のLMベースのQAモデルの脆さ。 0.53
Since collecting large supervision datasets containing disfluencies for training is expensive, different data augmentation methods for recovering the トレーニング用障害を含む大規模な監視データセットの収集は高価であるため、回復のための異なるデータ拡張方法が有用である。
訳抜け防止モード: 学習障害を含む大規模監視データセットの収集から データを回復するための さまざまなデータ拡張手法が
zero-shot performance drop are also evaluated (§3.3). ゼロショット性能低下も評価される(3.3)。 0.64
Finally, we demonstrate the efficacy of using the human annotated data in varying fractions, for both end-to-end QA supervision and disfluency generation based data augmentation techniques (§4.2). 最後に, エンド・ツー・エンドのQA監視とディフルエンシ生成に基づくデータ拡張技術(4.2)において, 異なる割合でアノテートされたデータを使用することの有効性を示す。
訳抜け防止モード: 最後に,ヒトのアノテートデータを用いて,異なる割合で有効性を示す。 エンド - エンド - エンド QA の監督とディフルエンシ生成に基づくデータ強化技術 (4.2 )。
We argue that creation of datasets, such as DISFL-QA, are vital for (1) improving understanding of disfluencies, and (2) developing robust NLU models in general. DISFL-QAのようなデータセットの作成は,(1)分散の理解の向上,(2)堅牢なNLUモデルの開発に不可欠である,と我々は主張する。 0.81
2 DISFL-QA: Adding Disfluencies to QA 2 DISFL-QA: QAに分散を加える 0.71
DISFL-QA builds upon the existing SQUAD-v2 dataset, a question answering dataset which contains curated paragraphs from Wikipedia and associated questions. DISFL-QAは既存のSQUAD-v2データセットの上に構築されている。
訳抜け防止モード: DISFL - QAは既存のSQUAD - v2データセットの上に構築される。 Wikipediaのキュレートされた段落と関連する質問を含む質問応答データセット。
Each question associated with the paragraph is sent for a human annotation task to add a contextual disfluency using the paragraph as a source of distractors. 段落に関連する各質問は人間のアノテーションタスクのために送られ、段落を気晴らしの源として使用する文脈的不一致を追加する。 0.62
Finally, to ensure the quality of the dataset, a subsequent round of human evaluation with an option to re-annotate is conducted. 最後に、データセットの品質を保証するために、再注釈を行うオプションを備えたその後の人間の評価を行う。 0.64
and questions sourced passages 質問は source + -ed 0.45
2.1 Source of Questions We from SQUAD-v2 (Rajpurkar et al , 2018) development set. 2.1 質問の出典 SQUAD-v2 (Rajpurkar et al , 2018) 開発セット。 0.82
SQUAD-v2 is an extension of SQUAD-v1 (Rajpurkar et al , 2016) that contains unanswerable questions written adversarially by crowd workers to look similar to answerable ones from SQUAD-v1. SQUAD-v2 は SQUAD-v1 (Rajpurkar et al , 2016) を拡張したもので、SQUAD-v1 の答え可能な質問と似ているように、群衆労働者が反対に書いた。 0.64
We use both answerable and unanswerable questions for each passage in the annotation task. アノテーションタスクの各文に、回答可能な質問と回答できない質問の両方を使用します。 0.55
2.2 Annotation Task To ensure high quality of the dataset, our annotation process consists of 2 rounds of annotation: 2.2 アノテーションタスク データセットの高品質を保証するために、アノテーションプロセスは2ラウンドのアノテーションで構成されます。 0.66
First Round of Annotation. 第1ラウンドのアノテーション。 0.69
Expert raters were shown the passage along with all the associated questions and their answers, with one of the question-answer pair highlighted for annotation.1 The raters were instructed to use the provided context in crafting disfluencies to make for a nontrivial dataset. 専門家のラテンダーは、関連するすべての質問と回答とともに、アノテーションにハイライトされた質問と回答のペアの1つとともに、提案されたコンテキストを使用して、非自明なデータセットを作成するように指示された。 0.53
The rater had to provide a disfluent version of the question that (a) is semantically equivalent to the original question (b) is natural, i.e., a human can utter them in a dialogue setting. レーダは、(a) が原質問(b) に意味論的に同値である、すなわち人間が対話で発声できるという質問の非流動的なバージョンを提供する必要があった。
訳抜け防止モード: 格付け器は、(a)が意味的に元の質問(b)と等価であるという質問の異質なバージョンを提供する必要があった。 つまり、人間は対話でそれを発声できる。
When 1The raters were linguistic experts, and were trained for いつ 1人は言語の専門家で 訓練を受けました 0.71
the task with 2 rounds of pilot annotation. 2ラウンドのパイロットアノテーションを持つタスク。 0.61
Type Interrogative Restart (30%) 種類 尋問再開(30%) 0.71
Entity Correction (25.6%) Entity Correction (25.6%) 0.92
Adverb/Adj. Adverb/Adj 0.74
Correction (20%) Entity Type Correction (21.1%) 訂正(20%) エンティティ型補正(21.1%) 0.78
Others (3.3%) Passage (some parts shortened) . その他(3.3%) パス(一部は短縮)。 0.64
. . Roger de Tosny travelled to the Iberian Peninsula to carve out a state for himself. . . ロジャー・ド・トスニーはイベリア半島を旅し、自ら国家を創り出した。
訳抜け防止モード: . . ロジャー・デ・トスニーはイベリア半島に旅行した 自ら国家を創り出すのです
In 1064, during the War of Barbastro, William of Montreuil led the papal army . 1064年、バルバストロの戦いでは、モンロイユ公ヴィルヘルムが教皇軍を率いた。 0.54
. . . . . While many commute to L.A. and Orange Counties, there are some differences in development, as most of San Bernardino and Riverside Counties were developed in the 1980s and 1990s. . . . . . ロサンゼルス郡やオレンジ郡への通勤は多いが、1980年代と1990年代にサンバーナーディーノ郡とリバーサイド郡の大半が開発されたので、開発にはいくつかの違いがある。 0.80
. . . . . Southern California is home to Los Angeles International Airport, the second-busiest airport in the United States by passenger volume; San Diego International Airport the busiest single runway airport in the world. . . . . . 南カリフォルニアにはロサンゼルス国際空港があり、アメリカ国内第2位の空港であり、サンディエゴ国際空港は世界最大の単一滑走路空港である。 0.82
. . . . . To the east is the Colorado Desert and the Colorado River, and the Mojave Desert at the border with Nevada. . . . . . 東にはコロラド砂漠とコロラド川があり、ネバダ州との州境にあるモハーヴェ砂漠がある。 0.80
To the south is the MexicoUnited States border. 南はメキシコとの国境である。 0.66
. . . . . Complexity measures are very generally defined by the Blum complexity axioms. . . . . . 複雑性測度は一般にブルーム複雑性公理によって定義される。 0.82
Other complexity measures used in complexity theory include communication complexity and decision tree complexity. 複雑性理論で用いられる他の複雑性尺度には、コミュニケーション複雑性と決定木複雑性がある。 0.60
. . Fluent Question . . フルーレントな質問 0.70
Disfluent Question Who was in charge of the papal army in the War of Barbastro? ゆるやかな質問 バルバストロ戦争における教皇軍の責任者は誰でしたか。 0.58
Where did the no who was in charge of the papal army in the Barbastro War? バルバストロ戦争では教皇軍の責任者はどこにいなかったのか。 0.58
Other than the 1980s, in which decade did most of San Bernardino and Riverside Counties develop? 1980年代を除いて、サンバーナーディーノ郡とリバーサイド郡の大半はどの年で発展したのか。 0.62
than the 1990s I Other mean actually the 1980s which did San Bernardino and Riverside counties develop? 1990年代に比べれば、1980年代はサンバーナーディーノ郡とリバーサイド郡が発展した年だったのだろうか。 0.59
decade is What busiest airport United States? 十年 は アメリカで最も忙しい空港は? 0.72
the second in the What airport in the United States is the busiest no second busiest? 2番目は アメリカで一番忙しい空港はどの空港ですか。 0.62
What is the name of the water body that is found to the east? 東方で見つかった水域の名前は何ですか。 0.48
is the name of the What desert wait the water body that is found to the east? 砂漠の名前は東に見つかった水域を待ちますか。 0.52
What is typically used to broadly define complexity measures? 複雑さの測定を広く定義するために一般的に使われるものは何か? 0.53
What is defined no is typically used to broadly define complexity measures? 定義されているもの no は通常、複雑さの尺度を広く定義するために使われるか? 0.57
Table 1: Example passage and fluent questions from the SQUAD dataset and their disfluent versions provided by human raters, categorized by the type of disfluency along with their estimated percentage in the DISFL-QA dataset. 表1: SQUADデータセットと人間のラッカーが提供した流用バージョンからの例と流用質問は、DisFL-QAデータセットの予測割合とともに、拡散の種類によって分類される。 0.72
writing the disfluent version of a question, we instructed raters not to include partial words or filled pauses (e g , “um”, “uh”, “ah” etc. 質問の難解なバージョンを書き、リサーに部分的な単語やポーズ(例えば“um”、”uh”、”ah”など)を含まないよう指示しました。 0.66
), as they can be detected relatively easily (Johnson and Charniak, 2004; Jamshid Lou and Johnson, 2017). 比較的容易に検出できる(Johnson and Charniak, 2004; Jamshid Lou and Johnson, 2017)。 0.65
Raters were shown example disfluencies from each of the categories in Table 1. 表1の各カテゴリから,利率の差を例示した。 0.67
On average, raters spent 2.5 minutes per question. 平均して、ラッカーは質問に2.5分を費やした。 0.47
Introduction of a disfluency increased the mean length of a question from 10.3 to 14.6 words. ディフルエンシの導入により、質問の平均長は10.3語から14.6語に増加した。 0.55
Human Evaluation + Re-annotation. 人間の評価と再注釈。 0.67
To assess and ensure high quality of the dataset, we asked a another set of human raters the following yes/no questions: データセットの質を高く評価し、確実にするために、私たちは別の人間レートラーに次のような質問をした。 0.55
1. Is the disfluent question consistent with respect to the fluent question? 1. 不合理な質問は流動的な質問と一致しているか? 0.72
i.e., the disfluent question is semantically equivalent to the original question in that they share the same answer. つまり、不合理な質問は、同じ答えを共有するという、元の質問と意味的に等価です。 0.66
2. Is the disfluent question natural? 2. 異質な質問は自然か? 0.78
Naturalness is defined in terms of human usage, grammatical errors, meaningful distractors etc. 自然さは人間の用法、文法的誤り、意味のある気晴らしなどの観点から定義される。 0.65
After the first round of annotation, we found that the second pool of raters found the disfluent questions to be consistent and natural 96.0% and アノテーションの第1ラウンドの後、第2プールのラッカーは、不合理な質問が一貫性があり、自然な96.0%であることを発見した。 0.52
88.5% of the time, with an inter-annotator agreement of 97.0% and 93.0%2, respectively. 88.5%であり,アノテーション間合意は97.0%,93.0%2であった。 0.78
This suggests that the initial round of annotation resulted in a high quality dataset. これは、アノテーションの最初のラウンドが高品質なデータセットを生み出したことを示唆している。 0.56
Furthermore, for the cases identified as either inconsistent or unnatural, we conducted a second round of reannotation with updated guidelines to make required corrections. さらに,不整合あるいは不自然と認識された場合に対して,要求された修正を行うためのガイドラインを改訂した第2ラウンドで再注釈を行った。 0.65
2.3 Categories of Disfluencies To assess the distribution of different types of disfluencies, we sampled 500 questions from the training and development sets and manually annotated the nature of disfluency introduced by the raters. 2.3 障害カテゴリー 異なる種類の障害の分布を評価するため、トレーニング・開発セットから500の質問をサンプリングし、ラッカーが導入した障害の性質を手動で注釈した。 0.69
Table 1 shows the distribution of these categories in the dataset. 表1は、データセット内のこれらのカテゴリの分布を示しています。 0.68
A notable difference between DISFL-QA and SWITCHBOARD (Godfrey et al , 1992) is that DISFL-QA contains a larger fraction of corrections and restarts, which have been shown to be the hardest disfluencies to detect and correct (Zayats et al , 2014; Jamshid Lou et al , 2018; Yang et al , 2020). DISFL-QA と SWITCHBOARD (Godfrey et al , 1992) の顕著な違いは、DisFL-QA には修正と再起動が比較的多く含まれており、検出と修正が最も困難であることが示されていることである(Zayats et al , 2014; Jamshid Lou et al , 2018; Yang et al , 2020)。 0.81
From Table 1, we can see that ≈30% and >65% of the disfluencies in DISFL-QA are restarts and corrections respectively. 表1から、 DisFL-QA の障害の ~30% と > 65% がそれぞれリスタートと修正であることがわかる。 0.67
In addition to the specific categories men2Cohen’s κ = 0.55, indicating moderate agreement. Men2Cohen の κ = 0.55 は、特定のカテゴリに加えて、適度な一致を示している。 0.59
Dataset Domain データセットドメイン 0.73
Goal-oriented Contextual Size (# sentences) Disfluencies Correction & Restarts Coreferences ゴール指向コンテキストサイズ(#文)分散補正と再起動 0.69
Switchboard DISFL-QA Wikipedia Passages Yes Yes 11.8k 100% >90% ≈10% switchboard disfl-qa wikipedia passages yes 11.8k 100% >90% ~10% 0.78
Telephonic Conversations No No 7.9k 20% <50% <1% テレフォニック会話 no 7.9k 20% <50% <1% 0.87
Table 2: Comparison of DISFL-QA with SWITCHBOARD. 表2: DisFL-QAとSWITCHBOARDの比較 0.77
DISFL-QA is more diverse, contains harder disfluencies and new phenomenon like coreference. DISFL-QAはより多様であり、より困難で、コア参照のような新しい現象を含んでいる。 0.46
the dataset tioned in Table 1, includes other challenging phenomena which are shared across these categories. データセット 表1には、これらのカテゴリ間で共有される他の困難な現象が含まれている。 0.67
For instance, example below shows disfluencies which introduce coreferences between the reparandum and the repair (mentions marked [. 例えば、下記の例では、reparandum と repair (mentions mark [.]) の共通参照をもたらす不利さを示しています。 0.66
]), allowing more complex corrections not present in existing datasets: 既存のデータセットにはない、より複雑な修正を可能にする。 0.57
Who does BSkyB have an operating license 誰が? BSkyBがオペレーティングライセンスを取得 0.77
from ? → Who removed [BSkyB’s] えっ? → 誰が[BSkyB’s]を取り除いた. 0.68
operating license no scratch that who do [they] have [their] だれが[彼ら]持っているかのスクラッチのない運転免許. 0.50
operating license from ? Table 2 summarizes the key differences between DISFL-QA and the SWITCHBOARD dataset. 営業免許? 表2は、DisFL-QAとSWITCHBOARDデータセットの主な違いをまとめたものです。 0.46
3 Experimental Setup 3.1 Models to Compare We use two different modeling approaches to answer disfluent questions in DISFL-QA. 3 実験的セットアップ3.1 比較のためのモデル 2 つの異なるモデリング手法を用いて DISFL-QA の解答を行う。 0.71
LMs for QA. We use BERT (Devlin et al , 2019) and T5 (Raffel et al , 2020) as our QA models in the standard setup which has shown to achieve state-of-the-art performance for SQUAD. QA用LM。 標準設定ではBERT(Devlin et al , 2019)とT5(Raffel et al , 2020)をQAモデルとして使用しています。
訳抜け防止モード: QA用LM。 標準設定ではBERT(Devlin et al, 2019 )とT5(Raffel et al, 2020 )をQAモデルとして使用しています。 SQUADの------アートパフォーマンスを達成できることが示されています。
We fine-tune BERT for a span selection task, whereby predicting start and end probabilities for all the tokens in the context. 我々は、スパン選択タスクのためにBERTを微調整し、コンテキスト内の全てのトークンの開始と終了確率を予測する。
訳抜け防止モード: We fine - tune BERT for a span selection task, then by コンテキスト内のすべてのトークンの開始と終了の確率を予測する。
T5 is finetuned under the standard text2text formulation, when given (question, passage) as input the model generates the answer as the output. t5は、モデルが入力として与えられると、モデルが出力として応答を生成する、標準のtext2text形式の下で微調整される。 0.66
For predicting <no answer>, the model was trained to generate “unknown”. no answer>を予測するために、モデルは“unknown”を生成するように訓練された。 0.71
LMs for Disfluency Correction. We also finetune the above LMs as disfluency correction models. 拡散補正用LM。 また、上記LMを拡散補正モデルとして微調整する。 0.54
Given the disfluent question as input, a correction model predicts the fluent question, which is then fed into a QA model. 豊富な質問が入力として与えられると、補正モデルは流動的な質問を予測し、それをQAモデルに入力する。 0.70
For BERT, we use the BERT の場合、私たちは 0.78
Rule Fluent Q V What was the Norman religion? 規則 流麗 Q V ノルマン人の宗教は何でしたか。 0.68
When was the Duchy of Normandy founded? ノルマンディー公国はいつ設立されたのか。 0.60
Disfluent What was replaced with no no what was the Norman religion? 不満 ノルマン人の宗教とは何か? 0.41
When was the Duchy of Normandy offered ugh I mean founded? ノルマンディー公国はいつから建国されたのか。 0.47
ADJ What is the original meaning of the word Norman? ADJ ノーマンという言葉の本来の意味は何ですか。 0.68
What is the English rather original meaning of the word Norman? ノルマン」という言葉の英語の本来の意味は何ですか。 0.65
ADV Who did Beyonc´e ADV Who do Beyonc ́e 0.79
perform privately for in 2011? 2011年にプライベートに? 0.63
ENT Who was a ENT (複数形 ENTs) 0.47
prominent Huguenot in Holland? オランダの有名なユグノー? 0.67
Who did Beyonc´e perform publicly oops privately for in 2011? 2011年、Beyonc ́eは、誰のために非公開でオペを行ったのか? 0.37
Who was a prominent Saint Nicholas no I mean Huguenot in Holland? 有名な聖ニコラスは誰でしたか? オランダのユグノーのこと? 0.68
Table 3: Example of synthetically generated disfluent questions using the contextual heuristics. 表3:文脈ヒューリスティックスを用いた合成的不適切な質問の例。 0.74
state-of-the-art BERT-based disfluency correction model by Jamshid Lou and Johnson (2020) trained on SWITCHBOARD. jamshid lou and johnson (2020) による bert-based disfluency correction model はswitchboard でトレーニングされた。 0.60
We also train T5 models on DISFL-QA to prevent the distribution skew between SWITCHBOARD and DISFL-QA, and account for new phenomena like coreferences. また, SWITCHBOARD と DISFL-QA の分散スキューを防止するために DISFL-QA 上で T5 モデルを訓練し, コア参照のような新しい現象を考慮に入れた。 0.60
3.2 Training Settings We train the BERT and T5 variants on the following two data configurations: ALL where the model is trained on all of SQUAD-v2, including the non-answerable questions. 3.2 トレーニング設定 BERTとT5の亜種を以下の2つのデータ構成でトレーニングする。
訳抜け防止モード: 3.2 トレーニング設定 BERT と T5 の亜種を以下の2つのデータ構成でトレーニングする。 モデルはSQUAD - v2のすべてでトレーニングされる。
Evaluation is done against the entire test set. 評価はテストセット全体に対して行われる。 0.81
ANS where the model is trained only on answerable questions from SQUAD-v1, without the capabilities of handling non-answerable questions. モデルがSQUAD-v1の解答可能な質問のみに基づいてトレーニングされるANSでは、解答不可能な質問を処理できない。 0.61
3.3 Datasets Human Annotated Datasets. 3.3 Datasets Human Annotated Datasets 0.89
We use 3 datasets in our experiments: SQUAD-v1, SQUAD-v2, and DISFL-QA. 実験では、SQUAD-v1、SQUAD-v2、DisFL-QAの3つのデータセットを使用します。 0.51
We split the 11, 825 annotated questions in DISFL-QA into train/dev/test set contain- 我々は、DisFL-QAの注釈付き質問11,825をTrain/dev/test set containに分割した。 0.47
ing 7182/1000/3643 questions, respectively. 7182/1000/3643質問。 0.78
The split was also done at an article level such that the questions belonging to the same passage belong in the same split. スプリットはまた、同じパスに属する質問が同じスプリットに属するように、記事のレベルで行われた。 0.44
For zero-shot experiments, we only use the train of SQUAD. ゼロショット実験では、SQUADの列車のみを使用する。 0.77
Evaluation is done on the subset of SQuAD-v2 development set that corresponds to the DISFLQA test to ensure fair comparison. DISFLQAテストに対応するSQuAD-v2開発セットのサブセットで評価を行い、公正な比較を保証する。 0.82
Heuristically Generated Data. ヒューリスティック生成データ。 0.68
We also generate disfluencies heuristically to validate the importance of human annotated disfluencies. 我々はまた、人間の注釈付き不純物の重要性を検証するためにヒューリスティックに不純物を生成する。 0.38
Inspired by the disfluency categories seen in our annotation task, we derive the following heuristics to アノテーションタスクに見られる拡散カテゴリーにヒントを得て、以下のヒューリスティックスを導出する。
訳抜け防止モード: アノテーションタスクに見られる拡散カテゴリにインスパイアされた。 以下のヒューリスティックスを導き出します
Model BERT-QA モデル BERT-QA 0.69
T5-QA Disfluency Correction T5-QA 拡散補正 0.55
+ T5-QA Train + T5-QA 列車 0.68
ALL ANS ALL すべて ANS すべて 0.70
Eval HasAns-F1 エバル HasAns-F1 0.48
NoAns-F1 Overall-F1 NoAns-F1 総合F1 0.49
SQUAD Heuristics DISFL-QA SQUAD Heuristics DISFL-QA SQUAD Heuristics DISFL-QA SQUAD Heuristics DISFL-QA SQUAD Heuristics DISFL-QA SQUAD Heuristics DISFL-QA squad heuristics disfl-qa squad heuristics disfl-qa squad heuristics disfl-qa squad heuristics disfl-qa squad heuristics disfl-qa 0.48
83.87 51.45 ↓ 32.42 40.97 ↓ 42.90 83.87 51.45 ↓ 32.42 40.97 ↓ 42.90 0.52
89.63 80.52 ↓ 9.11 78.88 ↓ 10.75 89.63 80.52 ↓ 9.11 78.88 ↓ 10.75 0.52
91.38 39.98 ↓ 51.40 35.31 ↓ 56.07 91.38 39.98 ↓ 51.40 35.31 ↓ 56.07 0.52
93.71 81.73 ↓ 12.01 80.39 ↓ 13.32 93.71 81.73 ↓ 12.01 80.39 ↓ 13.32 0.52
91.38 42.83 ↓ 48.55 43.61 ↓ 47.77 91.38 42.83 ↓ 48.55 43.61 ↓ 47.77 0.52
93.71 82.27 ↓ 10.44 82.64 ↓ 11.07 93.71 82.27 ↓ 10.44 82.64 ↓ 11.07 0.52
70.55 74.49 ↑ 3.94 75.97 ↑ 5.42 70.55 74.49 ↑ 3.94 75.97 ↑ 5.42 0.52
- 87.67 92.57 ↑ 4.90 90.06 ↑ 2.39 - 87.67 92.57 ↑ 4.90 90.06 ↑ 2.39 0.69
- 87.67 92.18 ↑ 4.51 89.55 ↑ 1.88 - 87.67 92.18 ↑ 4.51 89.55 ↑ 1.88 0.69
- 77.46 62.53 ↓ 14.93 57.81 ↓ 19.65 - 77.46 62.53 ↓ 14.93 57.81 ↓ 19.65 0.69
89.63 80.52 ↓ 9.11 78.88 ↓ 10.75 89.63 80.52 ↓ 9.11 78.88 ↓ 10.75 0.52
89.59 65.27 ↓ 24.32 61.64 ↓ 27.95 89.59 65.27 ↓ 24.32 61.64 ↓ 27.95 0.52
93.71 81.73 ↓ 12.01 80.39 ↓ 13.32 93.71 81.73 ↓ 12.01 80.39 ↓ 13.32 0.52
89.59 66.56 ↓ 23.03 65.71 ↓ 23.88 89.59 66.56 ↓ 23.03 65.71 ↓ 23.88 0.52
93.71 82.27 ↓ 10.44 82.64 ↓ 11.07 93.71 82.27 ↓ 10.44 82.64 ↓ 11.07 0.52
Table 4: Breakdown of zero-shot performance of fine-tuned BERT and T5 QA models, trained only on the SQUAD dataset, and evaluated on SQUAD, Heuristics (§3.3), and DISFL-QA test sets. 表4: 細調整されたBERTとT5QAモデルのゼロショット性能の破壊、SQUADデータセットのみで訓練され、SQUAD、Huristics(3.3)、DisFL-QAテストセットで評価される。
訳抜け防止モード: 表4 : 微調整BERTおよびT5QAモデルのゼロショット性能の破壊 SQUADデータセットのみをトレーニングし、SQUADで評価する。 ヒューリスティックス(3.3 )と DISFL - QA テストセット。
We also evaluate the performance by using state-of-the-art disfluency detection model by Jamshid Lou and Johnson (2020) in a pipelined fashion. また,Jamshid Lou と Johnson (2020) による最先端の拡散検出モデルを用いて,パイプライン方式で性能を評価する。 0.71
augment our data with silver3 standard disfluencies: (i) SWITCH-Q which inserts prefix of another question as a prefix to the original question, and (ii) SWITCH-X, where X could be verb, adjective, adverb, or entity, and is inserted as a reparandum in the question. i)別の質問のプレフィックスを元の質問のプレフィックスとして挿入するSWITCH-Qと、(ii)Xが動詞、形容詞、副詞、またはエンティティになり得るSWITCH-Xであり、質問の余白として挿入されるSWITCH-Qである。
訳抜け防止モード: silver3 標準逆数によるデータ拡張 : (i ) SWITCH - Q 元の質問に別の質問のプレフィックスをプレフィックスとして挿入する そして (ii ) SWITCH - X で、X は動詞、形容詞、副詞、または実体である。 質問のリパランダとして挿入されます
To facilitate contextual disfluencies, we use the reparandums from the context. 文脈の分散を容易にするために、文脈からの分離を用いる。 0.44
For SWITCHVERB/ADJ/ADV/E NT, this was done by picking tokens and phrases from the context passage. SWITCHVERB/ADJ/ADV/E NTでは、コンテキストパスからトークンとフレーズを選択することでこれを行う。 0.57
For SHIFT-Q, we used other questions associated with the same passage. ShiFT-Qでは,同じ項目に関連する他の質問を用いた。 0.62
We used spaCy4 NER and POS tagger to extract relevant entities and POS tags, and sample interregnum from a list of fillers. spacy4 ner と pos tagger を使って関連するエンティティと pos タグを抽出し、fillers のリストから interregnum をサンプリングした。 0.65
Table 3 shows an example from each of the heuristics. 表3は、各ヒューリスティックスの例を示している。 0.80
We then finally combine all the heuristics (ALL in Table 3) by uniformly sampling a single disfluent question from the set of possible transformations of the question. そして、最終的にすべてのヒューリスティック(表3のすべて)を結合し、問題の可能な変換の集合から1つの非流動的な質問を一様にサンプリングする。 0.68
3.4 Evaluation Method In all our experiments, we evaluate QA performance using the standard SQUAD-v2 evaluation script which reports EM and F1 scores over the HasAns (asnwerable) and NoAns (nonanswerable) slices along with the overall scores. 3.4 評価方法 すべての実験において, EMおよびF1スコアをHasAnsスライスおよびNoAnsスライスに報告する標準SQUAD-v2評価スクリプトを用いてQA性能を評価する。 0.70
For brevity, we report only the F1 numbers as we 簡潔さのために f1の数字だけを報告します 0.75
3The silver nature of the data is due to the fact that we can 3 データの銀の性質は、私たちができることによるものです。 0.74
not enforce naturalness or semantic equivalence of §2. 2 の自然性や意味同値性を強制しない。 0.55
4https://spacy.io/ 4https://spacy.io/ 0.47
observed similar trends in EM and F1 across our experiments. EMとF1で同様の傾向が観察された。 0.70
4 Experiments We conduct experiments with DISFL-QA to answer the following questions: (a) Are state-of-theart LM based QA models robust to introduction of disfluencies in the questions under a zero-shot setting ? 4つの実験 A) 最先端のLMベースのQAモデルは、ゼロショット設定下での質問に相反することに対して堅牢か? 0.58
(b) Can we use heuristically generated synthetic disfluencies to aid the training of QA models to handle disfluencies ? b) ヒューリスティックに生成した合成障害を利用してQAモデルのトレーニングに役立てることができるか? 0.72
(c) Given a small amount of labeled data, can we recover performance by fine-tuning the QA models or training a disfluency correction model to pre-process the disfluent questions into fluent ones before inputting to the QA models ? c) 少量のラベル付きデータを与えられた場合,qaモデルに入力する前に,qaモデルを微調整したり,不流動性補正モデルをトレーニングすることで,パフォーマンスを回復することができるか? 0.79
(d) In the above setting, can we train a generative model to generate more disfluent training data ? (d)上記の設定では、より分散したトレーニングデータを生成するために生成モデルをトレーニングできますか? 0.72
4.1 Zero-Shot Performance Table 4 shows the performance of different variants measuring their zero-shot capabilities. 4.1 ゼロショット性能表4は、ゼロショット能力を測定する様々なバリエーションのパフォーマンスを示している。 0.59
Performance of BERT-QA and T5-QA. BERT-QAとT5-QAの性能 0.65
We see from Table 4 that when tested directly on on heuristics and DISFL-QA test sets, both the BERTQA and T5-QA models exhibit significant performance drop, as compared to the performance on the fluent benchmark of SQUAD. 表4では、ヒューリスティックスと DISFL-QA テストセットで直接テストすると、BERTQA と T5-QA モデルの両方が、SQUAD の流線型ベンチマークのパフォーマンスと比較して、大幅な性能低下を示します。 0.74
The performance drop for the complete models is greater 完全なモデルのパフォーマンス低下は大きい 0.62
Original Prediction SQUAD DISFL-QA 当初の予測部 disfl-qa 0.48
NoAns 71 1091 野安 71 1091 0.71
HasAns NoAns WrongAns HasAns ハスアン NoAns WrongAns HasAns 0.67
150 168 216 174 150 168 216 174 0.85
Table 5: Breakdown of prediction errors for the T5QA-ALL model on the fluent and disfluent questions. 表5: 流動的で非流動的な質問に対するT5QA-ALLモデルの予測エラーのブレークダウン。 0.66
WrongAns represents that the model predicted an incorrect span from context. WrongAnsは、モデルがコンテキストから間違った範囲を予測したことを示している。 0.58
when compared to their answerable-only counterparts. 回答可能な相手と比較した場合。 0.48
The best performing T5-ALL model shows a drop of 27.95 F1 points for the complete setup and 13.32 F1 point for the answerable only T5ANS model. 最高のパフォーマンスのT5-ALLモデルは、完全なセットアップで27.95F1ポイント、答え可能な唯一のT5ANSモデルで13.32F1ポイントの低下を示す。 0.63
This shows BERT and T5 are not robust when questions contain disfluencies. これは、BERTとT5が不一致を含む場合、堅牢でないことを示している。 0.43
Disfluency Correction + T5-QA. disfluency correction + t5-qa。 0.64
We use the BERT based state-of-the-art disfluency correction (Jamshid Lou and Johnson, 2020) as a preprocessing step before feeding the input to our T5-QA model. 我々は、T5-QAモデルに入力を供給する前に、BERTに基づく最先端の拡散補正(Jamshid Lou and Johnson, 2020)を前処理ステップとして使用します。 0.62
The models trained on SWITCHBOARD are not able to fill a significant performance gap, with the complete and answerable models recovering 4.07 and 2.25 F1 points, respectively. SWITCHBOARDで訓練されたモデルは、それぞれ4.07点と2.25点のF1点を回復し、大きなパフォーマンスギャップを埋めることができない。 0.62
We will revisit this setting in the fewshot experiments. この設定は、 fewshotの実験で再検討します。 0.70
DISFL-QA test-set vs. Heuristics test-set. DISFL-QA test-set vs. Heuristics test-set 0.60
Next, we compare the performance of heuristically generated disfluent questions against the human annotated questions. 次に,ヒューリスティックに生成された不均一な質問のパフォーマンスを,人間の注釈付き質問と比較する。 0.54
In general, human annotated disfluent questions exhibit larger performance drop compared to heuristics, across different models. 一般に、人間の注釈付き不流動な質問は、異なるモデル間でヒューリスティックよりも大きなパフォーマンス低下を示す。 0.64
Taking a closer look at the T5-ALL model shows that DISFL-QA shows a bigger drop in HasAns cases and smaller increase in NoAns cases, as compared to the heuristics test set. T5-ALLモデルを見てみると、DisFL-QAはHasAnsのケースの減少とNoAnsのケースの増加を、ヒューリスティックステストセットと比較して示している。 0.75
For the T5-ANS model, DISFL-QA shows a larger drop in performance which is attributed to the model picking wrong answer span. T5-ANSモデルの場合、DisFL-QAは間違った回答幅を選択するモデルに起因するパフォーマンスの低下を示す。 0.77
Based on this, we hypothesize that between the two datasets, heuristics are able to confuse the models in overpredicting <no answer>, but DISFL-QA is superior when it comes to confuse the models to picking a different answer span altogether (as seen in Table 4 for models in ANS setting). これに基づいて、2つのデータセット間でヒューリスティックは<no answer>を過剰に予測することでモデルを混乱させることができるが、disfl-qaはモデルを混乱させて異なる回答スパンを選択するのに優れていると仮定する(ans設定のモデルでは表4を参照)。 0.76
This demonstrates that collecting a dataset like DISFLQA via human annotation holds value for contextual disfluencies. これは、人間のアノテーションによるdisflqaのようなデータセットの収集が文脈的不均一性に価値を持っていることを示している。 0.40
Fluent() Fluent (複数形 Fluents) 0.62
Zero-Shot + SW-ADJ + SW-ADV + SW-ENT + SW-Q + SW-VERB + ALL Zero-Shot + SW-ADJ + SW-ADV + SW-ENT + SW-Q + SW-VERB + ALL 0.63
HasAns F1 91.38 35.21 ハスアン F1 91.38 35.21 0.51
68.49 67.37 74.76 70.03 68.01 68.49 67.37 74.76 70.03 68.01 0.44
78.86 NoAns F1 87.67 90.06 78.86 野安 F1 87.67 90.06 0.51
86.24 85.27 85.95 78.94 87.16 86.24 85.27 85.95 78.94 87.16 0.44
85.96 Overall F1 89.59 61.64 85.96 総合 F1 89.59 61.64 0.54
77.03 75.98 80.14 74.31 77.22 77.03 75.98 80.14 74.31 77.22 0.44
82.27 Table 6: Performance on DISFL-QA with individual (SW-XX) and combined (ALL) heuristics based data augmentation and fine-tuning. 82.27 表6: DisFL-QA における個人 (SW-XX) と (all) ヒューリスティックスに基づくデータ拡張と微調整を組み合わせたパフォーマンス。 0.66
Performance Gap Breakdown. パフォーマンスギャップのブレークダウン。 0.55
For models trained on ALL setting, we find that the performance drop is largely due to the drop in F1 (over 50 points) on HasAns questions as opposed to NoAns questions, where it is almost negligible or even positive in some cases. all設定でトレーニングされたモデルの場合、パフォーマンス低下はHasAnsの質問に対するF1(50点以上)の減少によるもので、NoAnsの質問とは対照的である。
訳抜け防止モード: ALL設定でトレーニングされたモデルの場合、HasAnsの質問に対するF1(50ポイント以上)の低下によるパフォーマンス低下が主な原因であることが分かります。 NoAnsの質問とは対照的に、いくつかのケースではほとんど無視または肯定的である。
Upon closer analysis (Table 5) we find that a major fraction of prediction errors for HasAns is attributed to HasAns → NoAns errors, instead of HasAns → WrongAns.5 より詳しく分析すると(表5)、HasAnsの予測誤差の大部分がHasAns → WrongAns.5ではなくHasAns → NoAnsエラーによるものであることが分かる。 0.77
We believe that the disfluencies are causing the answerable questions to resemble the nonanswerable ones as seen by both BERT and T5 models under ALL setting. BERTモデルとT5モデルの両方がオールセッティングで見られるように、回答可能な質問は解決不可能な質問に類似していると考えている。 0.58
This results in an overly conservative model in terms of answerability and instead resorts to over-predicting <no answer>, causing gain in non-answerable recall at the cost of precision. この結果、回答可能性の面では極めて保守的なモデルとなり、代わりに<no answer>を過剰に予測し、正確さのコストでリコールの利益を生んでいる。 0.56
In contrast, for a comparable ANS model the drop in F1 is smaller, primarily due to relatively easier decision making, i.e. 対照的に、ANSモデルの場合、F1の減少は、主に比較的簡単な意思決定のため、小さくなる。 0.74
not required to decide when to answer vs. not. 答える時間と答える時間を決める必要はない。 0.56
Fine-tuning on Heuristic Data. ヒューリスティックデータの微調整。 0.62
In this experiment, we fine-tune on heuristically generated data from §3.3 and directly test on DISFL-QA. 本実験では,3.3から生成したヒューリスティックなデータを微調整し,DisFL-QAを直接検査する。 0.56
Table 6 compares the performance of the heuristics fine-tuned model on the DISFL-QA test-set. 表6は、DIFL-QAテストセット上でのヒューリスティックス微調整モデルの性能を比較する。 0.67
The overall heuristics trained model (ALL) is able to cover a significant performance drop from 61.64 to 82.27, an increase of 20.63 F1 points. 総合的なヒューリスティックストレーニングモデル(all)は、61.64から82.27までの大幅な性能低下をカバーし、20.63 F1ポイントを増大させた。
訳抜け防止モード: 総合ヒューリスティックストレーニングモデル(ALL) 61.64から82.27までの大幅な性能低下をカバーし、20.63 F1ポイントの増加を達成。
However, this still is 7.32 F1 points short of the fluent performance. しかし、それでも7.32F1ポイントは流線型性能に劣っている。 0.59
Amongst the individual heuristics, we observe the following order of effectiveness w.r.t. 個々のヒューリスティックスの中で、以下の効果の順序を観察する。 0.59
performance on the HasAns cases: ENT > SQ > ADJ > VERB > ADV. HasAnsのケースのパフォーマンス: ENT > SQ > ADJ > VERB > ADV。 0.75
One possible expla- 5We use the standard SQUAD evaluation script and mark 一つの可能性- 5 標準SQUAD評価スクリプトとマークを使用する。 0.68
a prediction as WrongAns iff F1(pred,gold)< 0.8. WrongAns iff F1(pred,gold)< 0.8と予測される。 0.83
(0, 90.1) (50, 85.2) (0, 90.1) (50, 85.2) 0.88
80 (25, 83.5) 80 (25, 83.5) 0.87
(100, 86.5) (100, 86.5) 0.88
1 F 60 40 (0, 35.3) 1F 60 40 (0, 35.3) 0.84
HasAns NoAns HasAns NoAns 0.85
0 Percentage of DISFL-QA Training Data 0 DisFL-QA トレーニングデータの比率 0.80
20 40 60 80 20 40 60 80 0.85
100 Fluent() 100 Fluent (複数形 Fluents) 0.73
Zero-Shot Heuristics ゼロショットヒューリスティックス 0.55
25% Data + Q → DQ + CQ → DQ 50% Data 100% Data + Q → DQ + CQ → DQ 25% data + q → dq + cq → dq 50% data 100% data + q → dq + cq → dq 0.75
HasAns F1 91.38 35.21 78.86 ハスアン F1 91.38 35.21 78.86 0.49
NoAns F1 87.67 90.06 85.96 野安 F1 87.67 90.06 85.96 0.46
Overall F1 89.59 61.64 82.27 総合 F1 89.59 61.64 82.27 0.50
Direct Supervision 83.58 86.44 87.47 直接監督 83.58 86.44 87.47 0.50
85.09 86.40 86.95 87.29 Pipelined 85.09 86.40 86.95 87.29 パイプライン 0.54
83.84 84.53 83.11 83.84 84.53 83.11 0.47
85.33 86.53 85.73 85.22 85.33 86.53 85.73 85.22 0.53
83.71 85.52 85.37 83.71 85.52 85.37 0.47
85.20 86.46 86.33 86.29 85.20 86.46 86.33 86.29 0.53
Figure 2: Few shot performance for different fraction of training data. 図2: 異なるトレーニングデータに対するショットパフォーマンスはほとんどありません。 0.76
We can see that performance on HasAns cases increases monotonically with increase in gold data. HasAnsのケースのパフォーマンスは、ゴールドデータの増加とともに単調に向上する。 0.71
However, for the NoAns cases, the performance first takes a drop (compared to zero-shot) and then increases. しかし、NoAnsの場合、パフォーマンスはまずドロップ(ゼロショットと比較)を取得し、次に増加します。 0.69
DQ → Q CDQ → Q DQ → Q CDQ → Q 0.85
87.65 87.99 87.65 87.99 0.50
86.70 86.02 86.70 86.02 0.50
87.19 87.04 87.19 87.04 0.50
Table 7: Performance on the test set of DISFL-QA when using gold human annotated data in training different components. 表7:DIFL-QAのテストセットにおける、異なるコンポーネントのトレーニングに金のアノテートデータを使用する場合のパフォーマンス。 0.76
nation for SWITCH-ENT and SWITCH-Q being more effective is the fact that our original annotated dataset has a relatively high percentage of entity and interrogative correction. SWITCH-ENT と SWITCH-Q がより効果的であるという事実は、私たちのオリジナルの注釈付きデータセットが比較的高いエンティティと疑似修正率を持っているという事実である。
訳抜け防止モード: SWITCH - ENT と SWITCH - Q がより効果的であるという事実です。 元の注釈付きデータセットは 比較的高いエンティティと 疑わしい修正率を持っている
4.2 Few Shot Performance Next, we evaluate the performance of the models when we use a part of human annotated gold disfluent data for training: (i) direct end-to-end supervision, (ii) generation based data augmentation, and (iii) training disfluency correction models. 4.2 ショットパフォーマンス 次に、訓練に人間の注釈付きゴールドディフルエントデータの一部を使用する場合、モデルの性能を評価する: (i) 直接のエンド・ツー・エンドの監督、 (ii) 生成に基づくデータ拡張、および (iii) トレーニングディフルエンス補正モデル。 0.84
Direct Supervision (k-shot). 直接監督(kショット)。 0.58
In this setting, we pick a SQUAD-v2 T5 model and then perform a second round of fine-tuning with varying percentages of DISFL-QA gold training data. この設定では、SQUAD-v2 T5モデルを選択し、次にDIFL-QAゴールドトレーニングデータの異なるパーセンテージで第2ラウンドの微調整を行う。 0.64
We experiment with 1, 5, 10, 25, 50, and 100 percent of the total gold data. 我々は、金の合計データの1,5,10,25,50、および100%を実験した。 0.81
Figure 2 shows the performance for 図2は performance (複数形 performances) 0.57
the HasAns and NoAns cases as we increase the amount of training data. HasAnsとNoAnsのケースは、トレーニングデータの量を増やします。 0.58
The HasAns performance increases gradually from 35.31 F1 points, in the zero-shot setting, to 86.40 F1 points with complete training data. HasAnsのパフォーマンスは、ゼロショット設定で35.31 F1ポイントから、完全なトレーニングデータで86.40 F1ポイントへと徐々に向上した。
訳抜け防止モード: HasAnsのパフォーマンスは、ゼロショット設定で35.31 F1ポイントから徐々に向上する。 86.40 F1ポイントまで。
Interestingly, for the NoAns cases, the performance first drops from 90.06 F1 points, in the zero-shot setting, to 82.02 F1 with 5% data and then monotonically increasing to 86.53 F1 with complete data. 興味深いことに、noansの場合、パフォーマンスは最初にゼロショット設定で90.06 f1ポイントから5%のデータを持つ82.02 f1に低下し、完全なデータで86.53 f1に単調に増加する。 0.64
This can be attributed to the fact that the zero-shot models were under-predictive (high recall, low precision for <no asnwer>) due to lack of robustness to disfluent inputs. これは、ゼロショットモデルが不均一な入力に対する堅牢性が欠如しているため(高リコール、<no asnwer>の精度が低い)、非予測的であったことに起因することができる。 0.62
Furthermore, Table 7 compares the performance of using the gold training data of DISFLQA against the heuristics data. さらに、表7は、disflqaのゴールドトレーニングデータとヒューリスティックスデータとの性能を比較する。
訳抜け防止モード: さらに、表7は、性能を比較する。 ヒューリスティックスデータに対するdisflqaのゴールドトレーニングデータの使用。
It shows that the models trained with disfluent data from DISFLQA are able to cover a major gap in answerable slice, which wasn’t possible with the heuristically generated data. disflqaのデータを流用して訓練されたモデルは、回答可能なスライスの大きなギャップをカバーできるが、ヒューリスティックに生成されたデータでは不可能だった。 0.67
Direct supervision bring an additional performance improvement of 4.19 F1 points over the heuristics. 直接監督は、ヒューリスティックよりも4.19 f1ポイントの性能向上をもたらす。 0.62
Generation Based Data Augmentation. 生成に基づくデータ拡張。 0.74
We use the T5 model for synthetically generating disfluent question from fluent question in the text2text framework. 我々は、text2textフレームワークのfluent questionから不均一な質問を合成的に生成するために、t5モデルを使用する。 0.56
We use the training set of DISFLQA to train the following generative models: (i) context-free generation (Q → DQ), and (ii) context-dependent generation (CQ → DQ) which use passage as well for generation. 我々はDisFLQAのトレーニングセットを用いて、 (i) 文脈自由生成(Q → DQ) と (ii) 文脈依存生成(CQ → DQ) の2つの生成モデルを訓練する。 0.63
Table 8 shows example generation from the two models. 表8は2つのモデルからサンプル生成を示す。 0.77
We observe that CQ → DQ is able to learn meaningful contextual disfluency generation, whereas Q → DQ can lead to non-meaningful or inconsistent disfluencies due to lack to context. 我々は、CQ → DQ が意味のある文脈的不フルエンシ生成を学習できるのに対し、Q → DQ は文脈の欠如により意味のないあるいは矛盾のない不フルエンシを生み出す可能性があることを観察する。
訳抜け防止モード: 我々は、CQ → DQが意味のある文脈的不フルエンシ生成を学べることを観察する。 一方、Q → DQ は文脈の欠如により非有意あるいは矛盾のない不一致をもたらす。
We then pick 5k random (question, answer) pairs from SQUAD training data and apply our generative model to produce disfluent training data for the QA models. 次に、SQUADのトレーニングデータから5kのランダムなペアを選び、生成モデルを適用して、QAモデルの非流動的なトレーニングデータを生成する。 0.74
Table 7 shows the performance of using data augmentation. 表7は、データ拡張の使用パフォーマンスを示す。 0.82
We perform data augmentation under two different train data settings: (1) 25% data, and (2) 100% data. 我々は,(1)25%データ,(2)100%データという2つの異なる列車データ設定の下でデータ拡張を行う。 0.85
Interestingly, for the models trained on 25% train data + generated data, we observe a gain of 1.81 F1 興味深いことに、25%の列車データ+生成されたデータで訓練されたモデルでは、1.81 f1の利得が観測される。 0.58
Passage: . . . Whereas a genome sequence lists the order of every DNA base in a genome, a genome map identifies the landmarks. 節: 。 . . ゲノム配列がゲノム内の全てのDNA塩基の順序を示すのに対して、ゲノムマップはランドマークを識別する。 0.75
A genome map is less detailed than a genome sequence and aids in navigating around the genome . ゲノムマップは、ゲノム配列よりも詳細ではなく、ゲノムの回りのナビゲートを支援する。 0.53
. . Fluent Question : What does a genome map list the order of ? . . fluent question : ゲノムマップは の順序をリスト化するのか? 0.79
T5 Q → DQ : What is no what does a genome map list the order of ? t5 q → dq : ゲノムマップは の順序をリスト化するのか? 0.66
T5 CQ → DQ : What does a genome sequence list the order of no sorry what does a genome map list the order of? T5 CQ → DQ : ゲノム配列は、何の順に、何の順に、何の順に、何の順にリストされるのか? 0.66
Passage: . . . The presence of fat in the small intestine produces hormones that stimulate the release of pancreatic lipase from the pancreas and bile from the liver which helps in . 節: 。 . . 小腸の脂肪の存在は膵臓からの膵リパーゼの放出を刺激するホルモンを産生し、肝臓から胆汁が分泌される。 0.73
. . Fluent Question : What is one molecule of fat ? . . fluent question : 1つの脂肪分子とは何か? 0.82
T5 Q → DQ : What is one molecule of protein no fat ? T5 Q → DQ : 脂肪のないタンパク質の分子は何か? 0.90
T5 CQ → DQ : What is one molecule of bile no wait fat ? T5 CQ → DQ : 胆汁の待ち脂肪の1分子は何か? 0.86
Passage: . . . In 1964, Nikita Khrushchev was removed from his position of power and replaced with Leonid Brezhnev. 節: 。 . . 1964年、ニキータ・フルシチョフは権力を剥奪され、レオニード・ブレジネフが後任となった。 0.69
Under his rule, the Russian SFSR . 彼の支配下では、ロシアSFSRである。 0.55
. . Fluent Question : When did Leonid Brezhnev die ? . . 質問:レオニード・ブレジネフはいつ亡くなったか? 0.79
T5 Q → DQ : When was the age of Leonid Brezhnev ? t5q → dq : レオニード・ブレジネフの年齢は? 0.61
T5 CQ → DQ : When did Nikita Khrushchev er I mean Leonid Brezhnev die ? T5 CQ → DQ : ニキータ・フルシチェフはいつ死んだのか? 0.62
Table 8: Example disfluent question (DQ) as generated by the Q → DQ and CQ → DQ T5 generative models for data augmentation. 表8: データ拡張のためのq → dqおよびcq → dq t5生成モデルによって生成される不流動問題(dq)の例。 0.80
We observe that CQ → DQ generates meaningful disfluencies compared to context-free generation, the latter leading to irrelevant or inconsistent questions in some cases. 我々は、CQ → DQが文脈自由生成と比較して有意義な不一致を生じさせ、後者は、いくつかのケースにおいて無関係または矛盾する問題を引き起こすことを観察する。 0.51
points (83.71 → 85.52) in the overall performance which is close to the absolute performance of using 50% gold data. ポイント (83.71 → 85.52) は全体のパフォーマンスにおいて、50%のゴールドデータを使用する絶対的なパフォーマンスに近い。 0.73
However, for the setup with 100% gold data + generated data, we did not observe a similar improvement in the overall performance. しかし、100%ゴールドデータ+生成データの設定では、全体的なパフォーマンスが同様の改善を観測できなかった。 0.74
Pipelined: Disfluency Correction + QA. Pipelined: Disfluency Correction + QA。 0.78
Unfortunately, existing disfluency correction models and datasets assume that fluent text is a subsequence of the disfluent one, and hence these approaches cannot solve disfluencies in DISFL-QA involving coreference. 残念なことに、既存のディフルエンシー補正モデルとデータセットは、fluent textはdisfluent textのサブシーケンスであると考えており、これらのアプローチは共参照を伴うdisfl-qaのディフルエンシーを解決できない。 0.53
For fair comparison, we train a T5 generation model as a DISFL-QA specific disfluency correction model using the training set of DISFL-QA, with a simple DQ → Q and CDQ → Q T5 task formulation. 公平な比較のために、簡単なdq → qとcdq → q t5タスク定式化を用いて、disfl-qa固有の不流動性補正モデルとしてt5生成モデルを訓練する。 0.75
With this pipelined approach, we get further improvements with an overall F1 of 87.19 (Table 7), however, still lacking by ≈2.4 F1 points compared to the fluent dataset. このパイプライン化アプローチでは、全体の F1 は 87.19 (Table 7) でさらに改善されるが、フローデータセットに比べて 2.4 F1 の点が不足している。 0.69
This shows that such complex cases require better modeling, preferably in an end-to-end setup. このことは、このような複雑なケースはより優れたモデリングを必要としていることを示している。 0.46
5 Related Work 5.1 Disfluency Correction The most popular approach in literature poses disfluency correction as a sequence tagging task, in which the fluent version of the utterance is obtained by identifying and removing the disfluent segments (Zayats et al , 2014; Ferguson et al , 2015; Zayats et al , 2016; Lou and John- 5 関連作業 5.1 拡散補正 文学における最も一般的なアプローチは、拡散補正をシーケンスタギングタスクとして用いて、その発話の流布バージョンは、流布セグメント(Zayats et al , 2014; Ferguson et al , 2015; Zayats et al , 2016; Lou and John-)を特定して除去することで得られる。 0.77
son, 2017; Jamshid Lou and Johnson, 2020; Wang et al , 2020). son, 2017; jamshid lou and johnson, 2020; wang et al , 2020)の略。 0.85
. Traditional disfluency correction models use syntactic features (Honnibal and Johnson, 2014), language models (Johnson et al , 2004; Zwarts and Johnson, 2011), discourse markers (Crible, 2017), or prosody-based features for learning (Zayats and Ostendorf, 2019; Wang et al , 2017) while recent disfluency correction models largely utilize pre-trained neural representations (Lou et al , 2018). . 従来のディフルエンシ補正モデルは、構文的特徴(Honnibal and Johnson, 2014)、言語モデル(Johnson et al , 2004; Zwarts and Johnson, 2011)、談話マーカー(Crible, 2017)、あるいは学習のための韻律に基づく特徴(Zayats and Ostendorf, 2019; Wang et al , 2017)、最近のディフルエンシ補正モデルは、主に訓練済みの神経表現(Lou et al , 2018)を使用する。 0.84
Most of these models depend on human-annotated data. これらのモデルのほとんどは、人間の注釈データに依存している。 0.51
As a result, recently, data augmentation techniques have been proposed (Yang et al , 2020; McDougall and Duckworth, 2017) to alleviate the strong dependence on labeled data. その結果、最近、ラベル付きデータへの強い依存を軽減するためにデータ拡張技術(Yang et al , 2020; McDougall and Duckworth, 2017)が提案されている。 0.78
However, the resulting augmented data either via heuristics (Wang et al , 2020) or generation models (Yang et al , 2020) is often limited in terms of disfluencies types and may not well capture natural disfluencies in daily conversations. しかし、結果として得られた拡張データは、ヒューリスティックス(wang et al , 2020)またはジェネレーションモデル(yang et al , 2020)を介して、しばしば不流動型として制限され、日々の会話における自然な不流動をうまく捉えられない。 0.59
5.2 Question Answering Under Noise In the QA literature, our work is related to two threads that aim to improve robustness of QA models: (i) QA under adversarial noise, and (ii) noise arising from speech phenomena. 5.2 雑音下での質問応答 QA 文献では,QA モデルの堅牢性向上を目的とした2つのスレッド,すなわち (i) 対向雑音下での QA と (ii) 音声現象によるノイズの関係について検討した。 0.79
Prior work on adversarial QA have predominantly generated adversaries automatically (Zhao et al , 2018), which are verified by humans to ensure semantic equivalence (i.e. 敵のqaに関する以前の研究は、主に敵を自動的に生成している(zhao et al , 2018)。
訳抜け防止モード: 敵QAの先行研究は、主に敵を自動的に生成している(Zhao et al, 2018)。 意味的等価性(つまり
answer remains same after perturbation). 解答は摂動後に同じである) 0.68
For instance, Ribeiro et al (2018) generated adversaries using para- 例えば、Ribeiro et al (2018) は para- を使って敵を発生させた。 0.48
phrasing, while Mudrakarta et al (2018) perturbed questions based on attribution. phrasing, mudrakarta et al (2018) は帰属に基づく質問を摂動させた。 0.71
Closest work to ours is Jia and Liang (2017), who modified SQUAD to contain automatically generated adversarial sentence insertions. 我々の最も近い研究はJia and Liang (2017)で、彼はSQUADを修正し、自動的に生成された対数文の挿入を含むようにした。 0.47
Our work is more closely related to prior work on making NLP models robust to noise arising from speech phenomena. 本研究は, 音声現象による雑音に対するNLPモデルの堅牢化に関する先行研究と, より密接に関連している。
訳抜け防止モード: 我々の仕事は以前の仕事とより密接な関係にある 音声現象による雑音に頑健なNLPモデルを作成する。
Earlier work (Surdeanu et al , 2006; Leuski et al , 2006) have built QA models which are robust to disfluency-like phenomenon, but they were limited in the corpus complexity, domain, and scale. 初期の研究(Surdeanu et al , 2006; Leuski et al , 2006)は、拡散現象に頑健なQAモデルを構築したが、それらはコーパスの複雑さ、領域、スケールに限られていた。 0.73
Recently there has been renewed interest in constructing audio enriched versions of existing NLP datasets, for example, the SPOKEN-SQUAD (Li et al , 2018) and SPOKEN-COQA (You et al , 2020) with the aim to show the effect of speech recognition errors on QA task. 近年、音声認識エラーがqaタスクに与える影響を示すために、speak-squad (li et al , 2018) や spoken-coqa (you et al , 2020) など、既存のnlpデータセットの音声強化バージョンの構築に新たな関心が寄せられている。
訳抜け防止モード: 近年,既存のNLPデータセットの音声強調版の構築への関心が高まっている。 例えば、SPOKEN - SQUAD (Li et al, 2018)。 そしてSPOKEN - COQA (You et al, 2020 ) を目標として 音声認識誤りがQA課題に与える影響を示す。
However, since collecting audio is challenging, another line of work involves testing the robustness of NLP models to ASR errors in transcribed texts containing synthetic noise using TTS → ASR technique (Peskov et al , 2019; Peng et al , 2020; Liu et al , 2020; Ravichander et al , 2021). しかし、音声収集は困難であるため、tts → asr技術(peskov et al , 2019; peng et al , 2020; liu et al , 2020; ravichander et al , 2021)を用いた合成ノイズを含むテキストのasr誤りに対するnlpモデルの堅牢性をテストする作業も行われている。
訳抜け防止モード: しかし、音声の収集は難しいため、TTS → ASR 技術(Peskov et al, 2019 ; Peng et al, 2020 ; Liu et al, 2020 ; Ravichander et al )を用いた合成ノイズを含む書き起こしテキストにおいて、NLP モデルのロバスト性をテストする作業も行われている。 2021 ) .
Our work suggests a complementary approach to data collection to surface a specific speech phenomenon that affects NLP. 本研究は,NLPに影響を与える特定の音声現象を明らかにするために,データ収集を補完するアプローチを提案する。 0.58
6 Conclusion This work presented DISFL-QA, a new challenge set containing contextual semantic disfluencies in a QA setting. 6 結論 この研究は、文脈意味の相違を含む新しい課題セットであるDisFL-QAを提示した。 0.66
DISFL-QA contains diverse set of disfluencies rooted in context, particularly a large fraction of corrections and restarts, unlike prior datasets. DISFL-QAには、コンテキストに根ざしたさまざまな不一致、特に以前のデータセットとは異なり、修正と再起動が多数含まれている。 0.55
DISFL-QA allows one to directly quantify the effect of presence of disfluencies in a downstream task, namely QA. DISFL-QAは、下流タスク、すなわちQAにおいて、分散の存在の影響を直接定量化することを可能にする。 0.60
We analyze the performance of models under varying when subjected to disfluencies under varying degree of gold supervision: zero-shot, heuristics, and k-shot. 我々は,ゼロショット,ヒューリスティックス,kショットといった,金監督の度合いの相違によるモデルの性能の変化を分析した。 0.65
Large-scale LMs are not robust to disfluencies. 大規模LMは分散に対して堅牢ではない。 0.46
Our experiments showed that the state-of-the-art pre-trained models (BERT and T5) are not robust when directly tested on disfluent input from DISFL-QA. 実験の結果,DisFL-QAからの非流動入力で直接試験した場合,最先端の事前訓練モデル(BERT,T5)は堅牢ではないことがわかった。 0.57
Although a naturally occurring phenomenon, the noise introduced by the disfluent transformation led to a non-answerable behavior at large. 自然発生の現象であるが、不純物変換によってもたらされたノイズは、大きな範囲で不可解な挙動に繋がった。 0.57
Contextual heuristics partially recover performance. コンテキストヒューリスティックはパフォーマンスを部分的に回復する。 0.52
We derived heuristics, in attempt to resemble the contextual nature of DISFL-QA, by 我々は DISFL-QA の文脈特性に類似したヒューリスティックスを導出した。 0.62
introducing semantic distractors based on NER, POS, and other questions. NER、POS、その他の質問に基づいたセマンティックインタラプタの導入。 0.64
In our experiments, we found that heuristics are effective in: (1) confusing the models in zero-shot setup, and (2) partially recovering the performance drop on DISFL-QA with fine-tuning. 実験の結果, ヒューリスティックスは, 1) ゼロショット設定でモデルを混乱させ, (2) 微調整でDIFL-QAの性能低下を部分的に回復させることで有効であることがわかった。 0.68
This indicates that the heuristics might be capturing some key aspects of DISFLQA. これは、ヒューリスティックがdisflqaの重要な側面を捉えている可能性があることを示している。 0.36
Efficacy of gold training data. 金のトレーニングデータの有効性 0.79
We use the gold data for supervising various models: (i) end-toend QA model, (ii) disfluency correction, and (iii) disfluency generation (for data augmentation). i) エンド・ツー・エンドQAモデル, (ii) ディフルエンシ補正, (iii) ディフルエンシ生成(データ拡張)など,様々なモデルの監視に金のデータを使用する。 0.78
For all the experiments, gold supervision outperforms heurisitics’ supervision significantly. すべての実験において、金の監督はヘリオシテスの監督を大きく上回っている。 0.36
Furthermore, we observed that in a low resource setup generation based data augmentation can match the performance of a high resource modeling setup. さらに,低リソース環境下では,高リソースモデル設定の性能に適合するデータ拡張が期待できることがわかった。 0.78
7 Discussion While DISFL-QA aims to fill a major gap between speech and NLP research community, understanding disfluencies holistically requires the following: 7 討論 DISFL-QAは、音声とNLP研究コミュニティの間の大きなギャップを埋めることを目的としているが、相違点の理解には以下のことが必要である。 0.55
General disfluencies focused NLP research. 一般的にはNLP研究に重点を置いている。 0.44
We believe understanding of disfluencies is a key ingredient for enabling natural human-machine communication in the near future, and call upon the NLP community to devise generalized fewshot or zero-shot approaches to effectively handle disfluencies present in input to NLP models, without requiring task specific disfluency datasets. そこで我々は,NLP コミュニティに対して,NLP モデルに入力される分散をタスク固有の分散データセットを必要とせずに効果的に処理するために,一般化されたスナップショットやゼロショットのアプローチを考案するよう呼びかける。 0.66
Constructing datasets for spoken problems. 音声問題のためのデータセットの構築。 0.56
We would also like to bring attention to the fact that being a speech phenomenon, a spoken setup would have been an ideal choice for disfluencies dataset. また、発話現象であるような音声設定が、分散データセットにとって理想的な選択であったという事実にも注目したい。 0.67
This would have accounted for higher degree of confusion, hesitations, corrections, etc. これは、より高度な混乱、ためらうこと、修正などを考慮していただろう。 0.61
while recalling parts of context on the fly, which otherwise one may find hard to create synthetically when given enough time to think. コンテキストの一部をオンザフライでリコールするが、そうでなければ、十分な時間を与えると合成的に作成することが困難になる。 0.57
However, such a spoken setup is extremely tedious for data collection mainly due to: (i) privacy concerns with acquiring speech data from real world speech transcriptions, (ii) creating scenarios for simulated environment is a challenging task, and (iii) relatively low yield for cases containing disfluencies. しかし、このような音声設定は、(i)現実世界の音声書き起こしから音声データを取得する際のプライバシー上の懸念、(ii)シミュレートされた環境のためのシナリオの作成は困難であり、(iii)ディスフルを含むケースでは比較的低収率である。 0.76
In such cases, we believe that a targeted and purely textual mode of data collection can be more effective both in terms of cost and specificity. このような場合、目的と純粋にテキストによるデータ収集は、コストと特異性の両方においてより効果的であると信じています。 0.64
References Eugene Charniak and Mark Johnson. Eugene Charniak と Mark Johnson を参照。 0.86
2001. Edit Detection and Parsing for Transcribed Speech. 2001. 書き起こされた音声の編集検出と解析 0.74
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Ludivine Crible. 2017. ルディビンの信条。 2017. 0.60
Discourse Markers and (Dis)fluency in English and French: Variation and Combination in the DisFrEn Corpus. 英語とフランス語における談話マーカーと (dis)fluency: variation and combination in the disfren corpus。 0.79
International Journal of Corpus Linguistics. International Journal of Corpus Linguistics(英語) 0.77
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.76
In Proc. of NAACL. Proc。 NAACLの略。 0.62
James Ferguson, Greg Durrett, and Dan Klein. ジェームズ・ファーガソン、グレッグ・ダレット、ダン・クライン。 0.59
2015. Disfluency Detection with a Semi-Markov Model and Prosodic Features. 2015. 半マルコフモデルと韻律特徴を用いた不均一検出 0.75
In Proc. of NAACL. Proc。 NAACLの略。 0.62
John J Godfrey, Edward C Holliman, and Jane McDaniel. ジョン・J・ゴドフリー、エドワード・ホリマン、ジェーン・マクダニエル。 0.62
1992. SWITCHBOARD: Telephone Speech Corpus for Research and Development. 1992. SWITCHBOARD: 研究開発のための電話音声コーパス。 0.81
In Proc. of ICASSP. Proc。 ICASSPの略。 0.61
Matthew Honnibal and Mark Johnson. マシュー・ホニバルとマーク・ジョンソン。 0.65
2014. Joint Incremental Disfluency Detection and Dependency Parsing. 2014. 複合インクリメンタル・ディフルエンシ検出と依存性解析 0.71
Transactions of the Association for Computational Linguistics. 計算言語学会(Association for Computational Linguistics)の略。 0.62
Paria Jamshid Lou, Peter Anderson, and Mark Johnson. パリア・ジャムシッド・ルー、ピーター・アンダーソン、マーク・ジョンソン。 0.56
2018. Disfluency Detection using AutoCorrelational Neural Networks. 2018. 自己相関型ニューラルネットワークを用いた拡散検出 0.71
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Paria Jamshid Lou and Mark Johnson. パリア・ジャムシド・ルーとマーク・ジョンソン。 0.44
2017. Disfluency Detection using a Noisy Channel Model and a Deep Neural Language Model. 2017. 雑音チャネルモデルとディープニューラル言語モデルを用いた拡散検出 0.74
In Proc. of ACL. Proc。 ACLの略。 0.63
Paria Jamshid Lou and Mark Johnson. パリア・ジャムシド・ルーとマーク・ジョンソン。 0.44
2020. Improving Disfluency Detection by Self-Training a SelfAttentive Model. 2020. 自己認識モデルによる拡散検出の改善 0.70
In Proc. of ACL. Proc。 ACLの略。 0.63
Robin Jia and Percy Liang. ロビン・ジアとパーシー・リアン 0.44
2017. Adversarial Examples for Evaluating Reading Comprehension Systems. 2017. 読解システムの評価における逆例 0.77
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Mark Johnson and Eugene Charniak. マーク・ジョンソンとユージン・シャルニアック。 0.58
2004. A TAGIn 2004. タグイン 0.67
based noisy-channel model of speech repairs. 音声補聴器の雑音チャネルモデル 0.54
Proc. of ACL. Proc ACLの略。 0.63
Mark Johnson, Eugene Charniak, and Matthew Lease. マーク・ジョンソン、ユージン・シャルニアック、マシュー・リース。 0.53
2004. An Improved Model for Recognizing DisfluIn Proc. 2004. ジフルリンプログを認識するための改良されたモデル 0.75
of Rich encies in Conversational Speech. 会話的な言葉の豊かさです 0.59
Transcription Workshop. 書き起こしワークショップ。 0.50
Anton Leuski, Ronakkumar Patel, David Traum, and Brandon Kennedy. Anton Leuski、Ronakkumar Patel、David Traum、Brandon Kennedy。 0.69
2006. Building Effective Question Answering Characters. 2006. 効果的な質問応答キャラクタの構築。 0.74
In In Proc. of SIGdial Workshop on Discourse and Dialogue. proc 内。 SIGdial Workshop on Discourse and Dialogue(英語) 0.55
Chia-Hsuan Li, Szu-Lin Wu, Chi-Liang Liu, and Hung yi Lee. Chia-Hsuan Li、Szu-Lin Wu、Chi-Liang Liu、Hung yi Lee。 0.80
2018. Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension. 2018. Spoken SQuAD: 音声認識誤りが聴取理解に与える影響についての検討 0.78
In Proc. of Interspeech. Proc。 Interspeechの略。 0.56
Jiexi Liu, Ryuichi Takanobu, Jiaxin Wen, Dazhen Wan, Hongguang Li, Weiran Nie, Cheng Li, Wei Peng, and Minlie Huang. Jiexi Liu, Ryuichi Takanobu, Jiaxin Wen, Dazhen Wan, Hongguang Li, Weiran Nie, Cheng Li, Wei Peng, Minlie Huang 0.71
2020. Robustness Testing of Language Understanding in Task-Oriented Dialog. 2020. タスク指向対話における言語理解のロバストネステスト 0.81
arXiv preprint arXiv:2012.15262. arXiv preprint arXiv:2012.15262 0.72
Paria Jamshid Lou, Peter Anderson, and Mark Johnson. パリア・ジャムシッド・ルー、ピーター・アンダーソン、マーク・ジョンソン。 0.56
2018. Disfluency Detection using AutoCorrelational Neural Networks. 2018. 自己相関型ニューラルネットワークを用いた拡散検出 0.71
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Paria Jamshid Lou and Mark Johnson. パリア・ジャムシド・ルーとマーク・ジョンソン。 0.44
2017. Disfluency Detection using a Noisy Channel Model and a Deep Neural Language Model. 2017. 雑音チャネルモデルとディープニューラル言語モデルを用いた拡散検出 0.74
In Proc. of ACL. Proc。 ACLの略。 0.63
Kirsty McDougall and Martin Duckworth. Kirsty McDougallとMartin Duckworth。 0.81
2017. Profiling fluency: An Analysis of Individual Variation in Disfluencies in Adult Males. 2017. プロファイリング・フルーエンシー : 成人男性における拡散の個体差の分析 0.79
Speech Communication. Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan, and Kedar Dhamdhere. 音声通信。 Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan, Kedar Dhamdhere 0.63
2018. Did the Model Understand the Question? 2018. モデルは質問を理解できたか? 0.81
In Proc. of ACL. Proc。 ACLの略。 0.63
Baolin Peng, Chunyuan Li, Zhu Zhang, Chenguang Zhu, Jinchao Li, and Jianfeng Gao. Baolin Peng, Chunyuan Li, Zhu Zhang, Chenguang Zhu, Jinchao Li, Jianfeng Gao 0.69
2020. RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems. 2020. RADDLE:ロバストなタスク指向対話システムのための評価ベンチマークと分析プラットフォーム。 0.82
arXiv preprint arXiv:2012.14666. arXiv preprint arXiv:2012.14666。 0.64
Denis Peskov, Joe Barrow, Pedro Rodriguez, Graham Neubig, and Jordan Boyd-Graber. Denis Peskov、Joe Barrow、Pedro Rodriguez、Graham Neubig、Jordan Boyd-Graber。 0.78
2019. Mitigating In Proc. 2019. Procで移行する。 0.74
of Noisy Inputs for Question Answering. 質問応答のための雑音入力の 0.71
Interspeech. Interspeech 0.47
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 2020. Unified Text-to-Text Transformer による伝達学習限界の探索 0.85
In Proc. of JMLR. Proc。 JMLRの略。 0.62
Pranav Rajpurkar, Robin Jia, and Percy Liang. Pranav Rajpurkar、Robin Jia、Percy Liang。 0.64
2018. Know What You Don’t Know: Unanswerable Questions for SQuAD. 2018. 知らないこと: SQuADの答えにならない質問。 0.74
In Proc. of ACL. Proc。 ACLの略。 0.63
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.63
2016. SQuAD: 100,000+ Questions In Proc. 2016. SQuAD: Procでは10万以上の質問があります。 0.67
of for Machine Comprehension of Text. テキストの機械的理解のために。 0.68
EMNLP. Abhilasha Ravichander, Siddharth Dalmia, Maria Ryskina, Florian Metze, Eduard Hovy, and Alan W Black. EMNLP。 abhilasha ravichander, siddharth dalmia, maria ryskina, florian metze, eduard hovy, そしてalan w black。 0.69
2021. NoiseQA: Challenge Set Evaluation In In Proc. 2021. NoiseQA:Proc.における課題セット評価 0.83
for User-Centric Question Answering. ユーザ中心の質問回答。 0.60
of EACL. Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. EACLの略。 Marco Tulio Ribeiro、Sameer Singh、Carlos Guestrin。 0.66
2018. Semantically Equivalent AdversarIn Proc. 2018. 意味的に等価なAdversarIn Proc。 0.66
of ial Rules for Debugging NLP models. NLPモデルをデバッグするためのial Rules。 0.73
ACL. Elizabeth Shriberg. ACL。 エリザベス・シュリーバーグ。 0.70
1996. Disfluencies in Switchboard. 1996. スイッチボードの分散性。 0.76
In Proc. of ICSLP. Proc。 ICSLPの略。 0.61
Elizabeth Ellen Shriberg. エリザベス・エレン・シュライバーグ 0.57
1994. Preliminaries to a The- 1994. 特集にあたって 0.59
ory of Speech Disfluencies. ory of Speech Disfluencies (英語) 0.65
Ph.D. thesis. 博士論文。 0.58
Mihai Surdeanu, David Dominguez-Sal, and Pere R Comas. Mihai Surdeanu、David Dominguez-Sal、Pere R Comas。 0.82
2006. Design and Performance Analysis of a Factoid Question Answering System for Spontaneous Speech Transcriptions. 2006. 自発音声書き起こしのためのファクトイド質問応答システムの設計と性能解析 0.77
In Proc. of ICSLP. Proc。 ICSLPの略。 0.61
Shaolei Wang, Wangxiang Che, Qi Liu, Pengda Qin, Ting Liu, and William Yang Wang. Shaolei Wang、Wangxiang Che、Qi Liu、Pengda Qin、Ting Liu、William Yang Wang。 0.71
2020. MultiTask Self-Supervised Learning for Disfluency Detection. 2020. 分散検出のためのマルチタスク自己監視学習 0.74
In Proc. of AAAI. Proc。 AAAIの略。 0.62
Shaolei Wang, Wanxiang Che, Yue Zhang, Meishan Zhang, and Ting Liu. Shaolei Wang, Wanxiang Che, Yue Zhang, Meishan Zhang, Ting Liu 0.66
2017. Transition-Based In Proc. 2017. Proc のトランジッションベース。 0.69
of Disfluency Detection using LSTMs. LSTMを用いた拡散検出 0.67
EMNLP. Jingfeng Yang, Diyi Yang, and Zhaoran Ma. EMNLP。 ジンファン・ヤン、diyi yang、zhaoran ma。 0.59
2020. Planning and Generating Natural and Diverse Disfluent Texts as Augmentation for Disfluency Detection. 2020. 拡散検出のための自然・多変量テキストの計画と生成 0.69
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Chenyu You, Nuo Chen, Fenglin Liu, Dongchao Yang, and Yuexian Zou. Chenyu You, Nuo Chen, Fenglin Liu, Dongchao Yang, Yuexian Zou。 0.71
2020. Towards Data Distillation for End-to-end Spoken Conversational Question Answering. 2020. エンドツーエンド対話型質問応答のためのデータ蒸留 0.75
arXiv preprint arXiv:2010.08923. arXiv preprint arXiv:2010.08923 0.71
Vicky Zayats and Mari Ostendorf. ヴィッキー・ザヤッツとマリ・オステンドルフ。 0.54
2019. Giving Attention to the Unexpected: Using Prosody Innovations in Disfluency Detection”. 2019. 未知への注意:拡散検出における韻律の革新の利用」。 0.75
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Vicky Zayats, Mari Ostendorf, and Hannaneh Hajishirzi. Vicky Zayats、Mari Ostendorf、Hannaneh Hajishirzi。 0.66
2014. Multi-domain disfluency and repair detection. 2014. マルチドメインの拡散と修復検出。 0.77
In Proc. of Interspeech. Proc。 Interspeechの略。 0.56
Vicky Zayats, Mari Ostendorf, and Hannaneh Hajishirzi. Vicky Zayats、Mari Ostendorf、Hannaneh Hajishirzi。 0.66
2016. Disfluency Detection Using a Bidirectional LSTM. 2016. 双方向LSTMを用いた拡散検出 0.81
In Proc. of Interspeech. Proc。 Interspeechの略。 0.56
Victoria Zayats, Trang Tran, Richard A. Wright, Courtney Mansfield, and Mari Ostendorf. ヴィクトリア・ザヤッツ、トラン・トラン、リチャード・a・ライト、コートニー・マンスフィールド、マリ・オステンドルフ。 0.53
2019. Disfluencies and Human Speech Transcription Errors. 2019. 分散と人間の音声の書き起こし誤差 0.75
In Proc. of Interspeech. Proc。 Interspeechの略。 0.56
Zhengli Zhao, Dheeru Dua, and Sameer Singh. Zhengli Zhao, Dheeru Dua, Sameer Singh。 0.70
2018. Generating Natural Adversarial Examples. 2018. 自然の逆境の例を 作り出します 0.70
In Proc. of ICLR. Proc。 ICLRの略。 0.60
Simon Zwarts and Mark Johnson. サイモン・ズワーツとマーク・ジョンソン 0.62
2011. The Impact of Language Models and Loss Functions on Repair Disfluency Detection. 2011. 補修不良検出における言語モデルと損失関数の影響 0.80
In Proc. of ACL. Proc。 ACLの略。 0.63

翻訳にはFugu-Machine Translatorを利用しています。