論文の概要、ライセンス

# (参考訳) timedial:temporal commonsense reasoning in dialog [全文訳有]

TIMEDIAL: Temporal Commonsense Reasoning in Dialog ( http://arxiv.org/abs/2106.04571v1 )

ライセンス: CC BY-SA 4.0
Lianhui Qin, Aditya Gupta, Shyam Upadhyay, Luheng He, Yejin Choi and Manaal Faruqui(参考訳) 毎日の会話は日常的な出来事を理解することを必要とし、それによって、それらの出来事と交わる時間的常識の概念を理解する必要がある。 t5やgpt-3のような巨大な事前学習言語モデル(lms)による最近の進歩にもかかわらず、ダイアログにおける時間的推論の能力はほとんど未検討のままである。 本稿では,新しいタスクとクラウドソーシングされた英語チャレンジセットであるtimedialを導入することで,事前学習したlmsの対話における時間推論能力について初めて検討する。 我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。 実証的な結果は、最高のパフォーマンスモデルでさえ、正確性に23の絶対的なギャップがあるこのタスクに苦戦していることを示している。 さらに,これらのモデルがコンテキスト内の既存の時間的パターンに基づく浅い手がかりに依存しており,テキストにおける時間的概念のモデル化と,それに対する堅牢な文脈的推論に関する今後の研究の動機となっている。 データセットは、https://github.com/g oogle-research-datas ets/timedial.comで公開されている。

Everyday conversations require understanding everyday events, which in turn, requires understanding temporal commonsense concepts interwoven with those events. Despite recent progress with massive pre-trained language models (LMs) such as T5 and GPT-3, their capability of temporal reasoning in dialogs remains largely under-explored. In this paper, we present the first study to investigate pre-trained LMs for their temporal reasoning capabilities in dialogs by introducing a new task and a crowd-sourced English challenge set, TIMEDIAL. We formulate TIME-DIAL as a multiple-choice cloze task with over 1.1K carefully curated dialogs. Empirical results demonstrate that even the best performing models struggle on this task compared to humans, with 23 absolute points of gap in accuracy. Furthermore, our analysis reveals that the models fail to reason about dialog context correctly; instead, they rely on shallow cues based on existing temporal patterns in context, motivating future research for modeling temporal concepts in text and robust contextual reasoning about them. The dataset is publicly available at: https://github.com/g oogle-research-datas ets/timedial.
公開日: Tue, 8 Jun 2021 17:59:21 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
TIMEDIAL: Temporal Commonsense Reasoning in Dialog timedial:temporal commonsense reasoning in dialog 0.68
Lianhui Qin♦∗ Luheng He♠ Lianhui (複数形 Lianhuis) 0.49
Aditya Gupta♠ Yejin Choi♦ Manaal Faruqui♠ ♠Google Assistant アディティヤ・グプタシュ・イェジン・チョイシュ・マナール・ファルーキシュ・googleアシスタント 0.44
Shyam Upadhyay♠ Shyam Upadhyay 0.78
♦Paul G. Allen School of Computer Science & Engineering, University of Washington ワシントン大学コンピュータサイエンス・工学科のポール・G・アレン校 0.72
{gaditya, shyamupa, luheng, mfaruqui}@google.com gditya, shyamupa, luheng, mfaruqui}@google.com 0.89
{lianhuiq, yejin}@cs.washington.edu {lianhuiq, yejin}@cs.washington.edu 0.78
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 1 7 5 4 0 1 v 1 7 5 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Everyday conversations require understanding everyday events, which in turn, requires understanding temporal commonsense concepts interwoven with those events. 概要 毎日の会話は日常的な出来事を理解することを必要とし、それによって、それらの出来事と交わる時間的常識の概念を理解する必要がある。 0.46
Despite recent progress with massive pre-trained language models (LMs) such as T5 and GPT-3, their capability of temporal reasoning in dialogs remains largely under-explored. t5やgpt-3のような巨大な事前学習言語モデル(lms)による最近の進歩にもかかわらず、ダイアログにおける時間的推論の能力はほとんど未検討のままである。 0.57
In this paper, we present the first study to investigate pre-trained LMs for their temporal reasoning capabilities in dialogs by introducing a new task and a crowd-sourced English challenge set, TIMEDIAL. 本稿では,新しいタスクとクラウドソーシングされた英語チャレンジセットであるtimedialを導入することで,事前学習したlmsの対話における時間推論能力について初めて検討する。 0.74
We formulate TIMEDIAL as a multiple choice cloze task with over 1.1K carefully curated dialogs. 我々は、TIMEDIALを1.1K以上の精巧なダイアログで複数選択クローゼタスクとして定式化する。 0.56
Empirical results demonstrate that even the best performing models struggle on this task compared to humans, with 23 absolute points of gap in accuracy. 実証的な結果は、最高のパフォーマンスモデルでさえ、正確性に23の絶対的なギャップがあるこのタスクに苦戦していることを示している。 0.54
Furthermore, our analysis reveals that the models fail to reason about dialog context correctly; instead, they rely on shallow cues based on existing temporal patterns in context, motivating future research for modeling temporal concepts in text and robust contextual reasoning about them. さらに,これらのモデルがコンテキスト内の既存の時間的パターンに基づく浅い手がかりに依存しており,テキストにおける時間的概念のモデル化と,それに対する堅牢な文脈的推論に関する今後の研究の動機となっている。 0.84
The dataset is publicly available at: https://github.com/ google-research-data sets/timedial. データセットは、https://github.com/ google-research-data sets/timedial.comで公開されている。 0.46
Introduction 1 Humans can effortlessly reason about temporal concepts of everyday events such as their duration, frequency, or relative ordering (Allen, 1984; Radvansky and Zacks, 2014) based on rich commonsense knowledge about how the world works, especially in relation to time. はじめに 1 人は時間、頻度、相対順序(allen, 1984; radvansky and zacks, 2014)といった日常的な出来事の時間的概念について、特に時間に関する豊かな常識的知識に基づいて、無力に推論することができる。 0.63
However, reasoning about such concepts has been challenging for machines (Kahn and Gorry, 1977; Kozareva and Hovy, 2011) since it requires both understanding the local temporal expressions and reasoning about their global contexts such as their relative ordering and relations しかし、そのような概念の推論は、局所的な時間的表現の理解と、それらの相対的な順序や関係のようなグローバルな文脈の推論の両方を必要とするため、機械にとって困難である(Kahn and Gorry, 1977; Kozareva and Hovy, 2011)。 0.70
∗Work done during an internship at Google. * googleでのインターンシップ中に行われた仕事。 0.61
A: May we see the wine list please. a: ワインリストをご覧ください。 0.49
B: Sure. B: もちろんです。 0.80
Our special wine today is a 1989 Chardonnay. 今日の特別なワインは1989年のシャルドネです 0.69
A: I’d like a bottle please. A: ボトルをお願いします。 0.55
B: I’ll need to see your ID please. b: みなさんのidをご確認頂きたいと思います。 0.67
A: Here you go. B: Sorry about the inconvenience, you look so young. A: どうぞ。 B: 残念なことに、あなたはとても若く見えます。 0.63
I had to make sure you are over あなたが終わったことを 確認しなければならなかった 0.54
. b) 30 years old  d) 18 years old  . b) 30歳(d)18歳(d) 0.80
a) 21 years old  c) 4 years old  A: Good morning! a) 21歳(c) 4歳(a):おはようございます! 0.69
May I help you? 手伝ってもいいですか? 0.49
B: Yes. My wife and I are interested in renting a house for the summer. B: はい。 妻と私は夏の間家を借りることに興味があります。 0.78
A: Very well. How long do you want the house? A: 結構です。 どのくらい家が欲しいですか。 0.64
All summer? B: No, not all summer. 一夏中? B: 夏の間はそうではありません。 0.66
Just for six weeks . A: I am afraid I can only rent it for two months . わずか6週間。 A: 2ヶ月しか借りられないのが残念です。 0.56
, but I think my brother B: My holiday is only and his family would take it for the other two weeks . でも、兄のB:私の休暇はたったの1日で、彼の家族はあと2週間その日を過ごすだろう。 0.78
a) six decades  c) six weeks  a) 60 年〜 c) 6 週間〜 〜 0.69
b) 45 days  d) two months  b) 四十五日 > d) 2ヶ月 > 0.70
Table 1: Examples from our TIMEDIAL challenge set, demonstrating the need for commonsense knowledge and arithmetic reasoning over the context to infer the correct answers. 表1:私たちのTIMEDIALチャレンジセットの例は、正しい回答を推測するためにコンテキスト上のコモンセンス知識と算術的推論の必要性を示しています。
訳抜け防止モード: 表1 : 我々のTIMEDIALチャレンジセットの例 正しい答えを推測する文脈上の常識知識と算術的推論の必要性を示すこと。
0.80
Key contextual information for reasoning success is highlighted. 推論成功のための重要なコンテキスト情報が強調される。 0.60
(UzZaman et al , 2013; Ning et al , 2018b; Pustejovsky, 2017). (UzZaman et al , 2013; Ning et al , 2018b; Pustejovsky, 2017)。 0.87
The problem becomes even more challenging in dialogs, where explicit and implicit inter-dependencies among temporal concepts can appear across conversation turns. この問題は、時間的概念間の明示的で暗黙的な相互依存性が会話のターンにまたがって現れるダイアログにおいてさらに困難になる。 0.63
For instance, for the first dialog in Table 1, one must understand the context, i.e., selling wine, and use world knowledge of minimum legal drinking age in order to reason about correct answers to fill in the blank. 例えば、表1の最初のダイアログでは、ワインの販売という文脈を理解し、空白を埋めるために正しい答えを推論するために、最小の法的飲酒年齢に関する世界的知識を使用する必要がある。 0.82
Similarly, in the second conversation, commonsense about the durations summer, month, week, day and their relations, plus numerical reasoning, are necessary to make the inference. 同様に、第2の会話では、夏、月、週、日、日、それらの関係に関する常識と数値的推論が必要である。 0.66
Although previous works have studied temporal reasoning in natural language, they have either focused on specific time-related concepts in 以前の作品は、自然言語における時間的推論を研究してきたが、それらは特定の時間に関連した概念に焦点を当てている。
訳抜け防止モード: 過去の研究は、自然言語の時間的推論を研究してきた。 彼らは特定の時間 - 関連する概念に焦点を当てた
0.58
英語(論文から抽出)日本語訳スコア
isolation, such as temporal ordering and relation extraction (Leeuwenberg and Moens, 2018; Ning et al , 2018a), and/or dealt with limited context, such as single-sentence-base d question answering (Zhou et al , 2019) and natural language inference (Vashishtha et al , 2020; Mostafazadeh et al , 2016). 時間的順序付けや関係抽出 (Leeuwenberg and Moens, 2018; Ning et al , 2018a) のような孤立は、単一文に基づく質問応答 (Zhou et al , 2019) や自然言語推論 (Vashishtha et al , 2020; Mostafazadeh et al , 2016) のような限られた文脈を扱う。 0.83
In this work, we make the first systematic study of temporal commonsense reasoning in a multi-turn dialog setting. 本研究では,マルチターンダイアログ設定における時間的コモンセンス推論を初めて体系的に研究する。 0.78
The task involves complex reasoning that requires operations like comparison and arithmetic reasoning over temporal expressions and the need for commonsense and world knowledge. このタスクは、時間表現に対する比較や算術推論のような操作を必要とする複雑な推論と、コモンセンスや世界知識の必要性を伴う。 0.64
We design a new task for dialog-based temporal reasoning and present a new challenge set in English, called TIMEDIAL, to evaluate language understanding models on the task. 対話に基づく時間的推論のための新しいタスクをデザインし、タスク上の言語理解モデルを評価するために、timedialと呼ばれる新しい課題を英語で提示する。
訳抜け防止モード: 我々はダイアログに基づく時間的推論のための新しいタスクを設計する TIMEDIALという英語で新しい課題を提示します 言語理解モデルを評価することです
0.91
We formulate the problem as a crowd-sourced cloze task with multiple choices based on dialogs in the DailyDialog dataset (Li et al , 2017). この問題をクラウドソースのclozeタスクとして定式化し,dailydialogデータセット(li et al , 2017)のダイアログに基づいて複数の選択を行う。 0.68
Given a dialog with one temporal span masked out, the model is asked to find all correct answers from a list of four options to fill in the blank (Table 1). 1つの時間的スパンがマスクアウトされたダイアログが与えられた場合、モデルは空白を埋める4つのオプションのリストから正しい答えを見つけるように要求される(Table 1)。 0.78
The challenge set requires the models to demonstrate understanding of the context and use temporal commonsense to make right choices. 課題セットは、コンテキストの理解を示し、適切な選択を行うために時間的コモンセンスを使用するモデルを必要とする。 0.68
Our final challenge set consists of 1.1K carefully curated dialog instances. 最終チャレンジセットは、1.1Kの慎重にキュレートされたダイアログインスタンスで構成されています。 0.38
We then study the performance of several stateof-the-art pre-trained language models on TIMEDIAL along several dimensions including modeling paradigms (classification, mask filling, and generation), the scope of dialog contexts, in-domain vs. out-of-domain training, dependence on shallow text matching for reasoning, and the types of reasoning required. 次に、モデリングパラダイム(分類、マスクフィリング、生成)、ダイアログコンテキストの範囲、ドメイン内対ドメイン外トレーニング、推論のための浅いテキストマッチングへの依存、必要な推論の種類など、TIMEDIAL上での最先端の事前訓練言語モデルの性能について検討する。 0.68
Our experiments demonstrate that offthe-shelf, pre-trained language models cannot effectively reason about temporal aspects in a dialog, even with domain-specific finetuning. 実験では,ドメイン固有の微調整であっても,既成の言語モデルでは,対話における時間的側面を効果的に説明できないことを示した。 0.61
Our findings indicate that large-scale pre-trained models even after fine-tuning may not be sufficient for robust temporal reasoning in dialogs, and motivate future research toward modeling temporal concepts over diverse everyday events, and contextual reasoning about them. 本研究は, 微調整後の大規模事前学習モデルでは, 対話における時間的推論の堅牢化には不十分であり, 様々な日常イベントに対する時間的概念のモデル化, 文脈的推論に向けた今後の研究を動機付けていると考えられる。
訳抜け防止モード: 実験結果から,大規模な事前訓練モデルでは微調整が十分ではない可能性が示唆された。 将来の研究を動機付け 多様な日常的な出来事に対する時間的概念のモデリングと 文脈的推論です
0.69
2 Task: Temporal Reasoning in Dialog 2タスク:ダイアログにおける時間的推論 0.76
We formulate the dialog-based temporal commonsense reasoning problem as a cloze task (Taylor, 1953). 対話に基づく時空間常識推論問題をclozeタスクとして定式化する(taylor, 1953)。 0.70
Formally, given a multi-turn dialog context of n conversational turns between two speakers A 形式的には、2つの話者A間のn交替のマルチターン対話コンテキストを与えられた 0.66
and B, where a temporal words span within the context is masked out, the task is to predict the suitable temporal expression(s) for the masked-out span from a list of options. そして、B では、時間的単語がコンテキスト内に散らばっている場合、そのタスクはオプションのリストから、マスクされた単語の時間的表現(s)を予測することである。 0.73
That is, we want the conversation model to select all the correct answers from the options based on the dialog context. つまり、会話モデルにダイアログコンテキストに基づいて、オプションから正しい答えを全て選択させたいのです。 0.73
Following similar cloze-style challenge datasets, we use accuracy as the evaluation metric (Mostafazadeh et al , 2016; Onishi et al , 2016; Mihaylov and Frank, 2018). 同様のclozeスタイルのチャレンジデータセットに従って、評価指標として精度を使用する(mostafazadeh et al , 2016; onishi et al , 2016; mihaylov and frank, 2018)。 0.83
Having a non-trivial set of options is crucial to build a challenge set and to avoid accidental spurious biases (Geirhos et al , 2020; Gururangan et al , 2018; Le Bras et al , 2020). 非自明な選択肢を持つことは、チャレンジセットを構築し、偶発的な偏見を避けるために不可欠である(geirhos et al , 2020; gururangan et al , 2018; le bras et al , 2020)。 0.79
We ensure this via the following filtering process. これを次のフィルタリングプロセスで保証します。 0.77
(1) For each masked span, there is more than one correct answer in the options. 1) 各マスクスパンに対して,選択肢には複数の正しい回答が存在する。 0.66
This makes the task more challenging for models since more comprehensive understanding of the context is required to recognize all the correct choices. これにより、すべての正しい選択を認識するためにコンテキストをより包括的に理解する必要があるため、モデルにとってタスクがより困難になる。
訳抜け防止モード: これにより、モデルにとってタスクはより困難になる 文脈のより包括的な理解が 全ての正しい選択を認識するために必要です
0.72
In our dataset (§3) we guarantee two incorrect answers for each masked span. データセットでは、各マスキングスパンに対して2つの誤った回答が保証されています。 0.44
(2) Some incorrect options are selected to be spuriously correlated with the dialog context. 2)いくつかの誤ったオプションは、対話コンテキストと突発的に相関するものとして選択される。 0.56
For example, we include temporal spans in the dialog context as negative options, which will challenge models that rely primarily only on shallow pattern matching without correct temporal reasoning. 例えば、ダイアログのコンテキストに時間的スパンを負のオプションとして含めると、時間的推論を正しく行わずに、主に浅いパターンマッチングにのみ依存するモデルに挑戦する。
訳抜け防止モード: 例えば、ダイアログコンテキストに時間スパンを負のオプションとして含めます。 これは主に時間的推論を伴わない 浅いパターンマッチングにのみ依存するモデルに挑戦します
0.82
We present more information in §3 about how the negative options were created by human annotators. 我々は,人間の注釈者によって負の選択肢がどのように生成されたかに関するより詳細な情報を示す。 0.44
3 Dataset: TIMEDIAL 3つのデータセット: TIMEDIAL 0.67
The TIMEDIAL dataset is derived from DailyDialog data (Li et al , 2017), which is a multi-turn dialog corpus containing over 13K English dialogs. TIMEDIALデータセットはDailyDialog data (Li et al , 2017) から派生したもので、これは13K以上の英語のダイアログを含む多ターンダイアログコーパスである。 0.67
Dialogs in this dataset consist of turn-taking between two people on topics over 10 broad categories, ranging from daily lives to financial topics. このデータセットのダイアログは、日常生活から金融トピックまで、10のカテゴリにわたるトピックに関する2人のターンテイクで構成されています。 0.67
3.1 Data Collection Our data collection process involves two steps: (1) identifying dialogs that are rich in temporal expressions, and (2) asking human annotators to provide correct and incorrect options for cloze instances derived from these dialogs. データコレクション 当社のデータ収集プロセスは,(1)時間表現に富んだダイアログの識別,(2)人間のアノテータに対して,これらのダイアログから派生したクローゼインスタンスに対して,正しい,誤ったオプションを提供すること,の2段階を含む。 0.67
We now describe these steps in detail. 現在、これらの手順を詳細に説明しています。 0.51
Temporal expression identification. Here, we select dialogs that are rich with temporal information, in order to focus on complex temporal reasoning that arises in natural dialogs. 時間表現の識別。 ここでは、自然なダイアログに生じる複雑な時間的推論に焦点を当てるために、時間的情報に富んだダイアログを選択する。 0.74
Temporal expressions are automatically identified with SUTime (Chang and Manning, 2012), an off-the-shelf テンポラル表現は、オフザシェルフであるSUTime(Chang and Manning, 2012)に自動的に識別される 0.74
英語(論文から抽出)日本語訳スコア
Category World Knowledge (5%) カテゴリー 世界の知識(5%) 0.81
Comparison (24%) Arithmetic (5%) 比較(24%) 算術(5%) 0.77
General Commonsense (60%) Others (6%) 一般常識(60%) その他(6%) 0.78
Dialog A: May we see the wine list ? ダイアログA:ワインリストを見てもよろしいですか? 0.64
B: Sure . B: もちろんです。 0.81
Our special wine today is a 1989 Chardonnay . 今日の特別なワインは1989年のシャルドネです。 0.62
A: That sounds pretty good! a: かなりいいですね! 0.72
How much is it ? B: It’s $4.25 cents by the glass . いくらですか? B:ガラスの価格は4.25ドルです。 0.65
The whole bottle is $22.25 . ボトル全体は22.25ドルです。 0.71
A: I’d like a bottle please . A: ボトルをお願いします。 0.54
B: I’ll need to see your ID please . b: みなさんのidをご確認頂きたいと思います。 0.66
A: Here you go . B: Sorry about the inconvenience, I had make sure you are over A: どうぞ。 B: ご迷惑をおかけしてすみません。 0.47
. A: Yes , sir. May I help you? . A: はい。 手伝ってもいいですか? 0.61
B: Please I’d like a ticket to New York. B:ニューヨーク行きのチケットをお願いします。 0.65
A: For today? B: No, early Saturday morning . A: 今日は? B:いや、土曜日の早朝。 0.78
A: We have a flight that we’ll put you there at Nothing earlier? A: さっきのNanoであなたを乗せたフライトがありますか? 0.41
I prefer flight at 9 thirty. 私は9時30分に飛ぶのが好きです。 0.46
A: I’m afraid not , unless you want a night flight. A: 夜の飛行機が欲しければ、私はそうは思いません。 0.80
B: No, exactly not. B: いいえ、まったく違います。 0.77
A: How long do you want the house ? a:いつまで家が欲しいですか? 0.63
All summer ? B: No , just for six weeks. 夏は? B: たった6週間だけです。 0.63
A: I’m afraid I can only rent it for two months . A: 2ヶ月しかレンタルできないのが残念です。 0.55
B: My holiday is only the other two weeks . B:私の休日はあと2週間だけです。 0.76
A: Do you get up early every morning ? A: 毎朝早く起きますか? 0.57
B: About 6 in the morning. I like to walk to the office . B:朝の6時頃。 私は事務所まで歩くのが好きです。 0.66
A: Good habit. a: 良い習慣です。 0.78
How long does it take ? どのくらいかかりますか。 0.62
B: A: No , my little sister lives with me . B: A: いいえ、妹は私と一緒に住んでいます。 0.75
. . A: How long does a facial service take? . . A: 顔サービスにかかる時間はどのくらいか? 0.85
B: We have half-hour and one-hour treatments. B: 半時間と1時間の治療があります。 0.67
A: What’s the regular price? a: 通常の価格は? 0.58
B: Well , the half-hour facial costs $50 and the one-hour costs $80. b:まあ、半時間半は50ドル、1時間半は80ドルです。 0.72
A: Good , I will take , but I think my brother and his family would take it for A:いいですね。 しかし、私は兄と彼の家族がそれを引き受けると思います。 0.64
facial. B: That’s fine , madam. 顔だ B: いいですね、奥様。 0.63
. Is that ok? . それは大丈夫ですか? 0.76
B: . Do you live alone ? b: . あなたは一人暮らしですか? 0.81
Options  21 years old  30 years old  4 years old  18 years old オプション 21歳→30歳→4歳→18歳 0.59
 ten AM  9:30 PM  eleven AM  four AM ~10 AM ~9:30 PM ~11 AM ~4 AM 0.76
 six decades  45 days  six weeks  two months 約60年 約45日 約6週間 約2ヶ月 0.61
 20 minutes  10 seconds  15 minutes  20 hours 20分~10秒~15分~20時間 0.56
 the one hour  the 20 hour  the 80 second  the half hour 1時間:1時間:20時間:1時間:80秒:30分 0.57
Table 2: Example dialogs and answer options from the TIMEDIAL dataset, categorized by the nature of reasoning required to correctly answer them, along with the percentage of each reasoning category in the set of 100 sampled examples. 表2: タイムディアルデータセットからのダイアログと回答オプションの例 正確に答えるために必要な推論の性質と、サンプルされた100の例のセットにおける各推論カテゴリの割合によって分類される。 0.91
The relevant key information in the dialog context is highlighted. ダイアログコンテキスト内の関連するキー情報が強調表示される。 0.82
temporal expression detector.1 We keep only the dialogs with more than 3 temporal expressions and at least one expression that contains numerals like “two weeks” (as opposed to non-numeric spans, like “summer”, “right now”, and “later”). 時相表現検出器.1 我々は、3つ以上の時相表現と「2週間」のような数字を含む少なくとも1つの表現を含むダイアログのみを保持する("summer"、"right now"、"later"のような非数値のスパンとは対照的に)。 0.75
In our initial experiment, we observe that language models can often correctly predict these non-numerical temporal phrases. 最初の実験では、言語モデルがこれらの非数値時間句を正しく予測できることを観察した。 0.64
We note that temporal expressions containing numerals serve as more challenging sets of options than non-numerical ones. 数値を含む時間表現は、非数値表現よりも難しい選択肢の集合として機能する。 0.60
This filtering step results in 1,127 unique dialogs for further processing. このフィルタリングステップは、さらなる処理のために1,127のユニークなダイアログを生成する。 0.54
Human annotated options. 人間の注釈付きオプション。 0.65
Next, we make spans in the dialogs. 次に、ダイアログでスパンを作成します。 0.64
For a dialog, we mask out each temporal expression that contains numerals, each resulting in a cloze question that is then sent for human annotation. ダイアログでは、数字を含む各テンポラリ表現をマスクアウトし、それぞれがクローズ質問を生成し、それを人間のアノテーションとして送信します。 0.63
This resulted in 1,526 instances for annotation. その結果、アノテーションは1,526インスタンスになった。 0.58
For each masked span in each dialog, we obtain human annotation to derive a fixed set of correct and incorrect options given the context. 各ダイアログのマスキングスパンに対して、コンテキストに与えられた正しいオプションと間違ったオプションの固定セットを導出するための人間のアノテーションを得る。 0.61
Concretely, given a masked dialog and a seed correct answer (i.e., the original text) for the masked span, the 具体的には、マスクされたスパンに対して、マスク付きダイアログとシード正しい回答(すなわち、原文)が与えられた。
訳抜け防止モード: 具体的には、マスク付きダイアログとシード正答(すなわち、シード正答)が与えられた。 原文 )マスクスパン ,the
0.63
1https://nlp.stanfor d.edu/software/ 1https://nlp.stanfor d.edu/software/ 0.34
sutime.shtml sutime.shtml 0.59
annotators2 were asked to (1) come up with an alternative correct answer that makes sense in the dialog adhering to commonsense, and (2) formulate two incorrect answers that have no possibility of making sense in the dialog context. アノテータ2は、(1)コモンセンスに固執するダイアログにおいて意味のある別の正しい答えを導き、(2)ダイアログコンテキストで意味をなさない2つの不正確な答えを定式化する。 0.70
We highlight all time expressions in the context to make it easier for annotators to select reasonable time expressions. 私たちは、アノテータが妥当な時間表現を簡単に選択できるように、コンテキスト内のすべての時間表現を強調します。
訳抜け防止モード: 全ての時間表現を強調します アノテータが合理的な時間表現を容易に選択できるようにする。
0.73
To ensure that the annotated incorrect options are not too trivially distinguishable by the models (as discussed in §2), we define three rules for the annotators to follow. 注釈付き不正確なオプションがモデルによってあまり自明に区別されないようにするために、アノテータが従うべき3つのルールを定義する。 0.70
• Rule 1: Phrase Matching. • ルール1: フレーズマッチング。 0.77
The rater should first try to pick another temporal span from the dialog context that makes syntactic/semantic sense (e g , when the span is of the appropriate type, such as duration, for the masked span) but is still incorrect according to commonsense. 例えば、スパンがマスクされたスパンの持続時間のような適切なタイプである場合など)構文的/意味的意味を持つダイアログコンテキストから別のテンポラリスパンを選択しようとするが、コモンセンスによっては誤りである。 0.64
• Rule 2: Numeral Matching. • ルール2: 数字マッチング。 0.72
If Rule 1 does not apply, raters should follow a relaxed version of Rule 1, whereby the incorrect option should contain any numeral occurring in the dialog context. ルール1が適用されない場合、ラウンダーはルール1の緩和されたバージョンに従うべきである。
訳抜け防止モード: 規則1が適用されない場合は、レートは規則1の緩和バージョンに従うべきである。 これにより、不正確なオプションは、ダイアログコンテキストで発生した任意の数字を含むべきである。
0.60
2who are English linguists. 2人は英語の言語学者です。 0.49
英語(論文から抽出)日本語訳スコア
# Dialog instances # Temporal Expressions # Avg. ダイアログのインスタンス # テンポラルな表現 # Avg。 0.69
Turns Per Dialog # Avg. Turns Per Dialog # Avg。 0.75
Words Per Turn # Avg. ワード・パー・ターン # Avg。 0.63
Time Spans Per Dialog Incorrect Options ダイアログ毎のタイムスパンの誤選択 0.67
% Phrase Matching % Numeral Matching % Open-ended %Phase Matching % Numeral Matching % Open-ended 0.89
1, 104 1, 985 11.7 16.5 3.0 1, 104 1, 985 11.7 16.5 3.0 0.74
16.3 % 49.6 % 45.4 % 16.3 % 49.6 % 45.4 % 0.63
instance can involve multiple reasoning types, we associate it with one predefined category label that indicates the primary type of reasoning it requires. インスタンスは複数の推論型を伴い、必要な推論の一次タイプを示す1つの定義済みのカテゴリラベルと関連付けることができます。 0.71
Table 2 shows the category distribution and examples in each of the category. 表2は、各カテゴリにおけるカテゴリの分布と例を示す。 0.91
We observe that the dataset requires general commonsense for 60% of the dialogs, making it the most common reasoning type. データセットは、60%のダイアログに対して一般的な常識を必要とするので、最も一般的な推論タイプである。 0.66
Table 3: Statistics of our TIMEDIAL challenge set. 表3:私たちのTIMEDIALチャレンジセットの統計。 0.85
4 Modeling • Rule 3: Open-ended. 4 モデリング • ルール3: オープンエンド。 0.79
If neither of the above rules is applicable, then raters can come up with an incorrect option using their own judgment. 上記のルールが適用されない場合、ラッカーは自身の判断で誤った選択肢を導き出すことができる。 0.69
The two incorrect options are required to differ from each other as much as possible. 2つの誤った選択肢は、可能な限り異なるように要求される。 0.76
Rules-1&2 are designed to confuse models that rely on shallow pattern matching. Rules-1&2は、浅いパターンマッチングに依存するモデルを混乱させるように設計されている。 0.60
Finally, to ensure the quality of the human-annotated options, we perform a subsequent round of human validation on the gathered data. 最後に、人間の注釈付きオプションの品質を保証するため、収集したデータに対してその後の検証を行う。 0.68
The validators identify and fix issues such as duplicate options, unreasonable or obscure annotations w.r.t natural usage, or ungrammatical annotations that do not fit in the context. 検証者は、重複オプション、不合理または曖昧なアノテーションw.r.t natural usage、文脈に合わない非文法的アノテーションなどの問題を識別し、修正する。 0.66
3.2 Properties of TIMEDIAL Table 3 shows statistics of TIMEDIAL. 3.2 TIMEDIAL Table 3の特性はTIMEDIALの統計を示す。 0.80
The dataset contains over 1.1K test instances. データセットには1.1K以上のテストインスタンスが含まれている。 0.44
Each dialog contains 11.7 turns and 3 temporal expressions on average, presenting richer and more complex context compared to the recent single-sentence-base d temporal question answering benchmarks (e g , Zhou et al , 2019; Vashishtha et al , 2020). 各ダイアログには平均で1.7回転、3つの時間表現が含まれており、最近の単文ベースの時間的質問応答ベンチマーク(例えば、Zhou et al , 2019; Vashishtha et al , 2020)と比較すると、よりリッチで複雑な文脈を示している。 0.57
As above, each test instance contains two correct answers and two incorrect ones.3 Over half of the incorrect options are annotated based on phrase and numeral matching from context, which pose a significant challenge for models relying on shallow text matching, as we show in our experimental analysis (§5). 上述したように、各テストインスタンスには2つの正しい回答と2つの誤った回答が含まれている。3 実験分析で示したように、誤ったオプションの半数以上が文脈からのフレーズと数字のマッチングに基づいて注釈付けされている。 0.70
Answering different instances in the dataset requires different types of core reasoning abilities, such as comparison, arithmetic inference, or reasoning based on world knowledge or general commonsense. データセットの異なるインスタンスへの応答には、比較、算術推論、世界知識や一般的な常識に基づく推論など、さまざまなコア推論能力が必要である。 0.74
To facilitate fine-grained analysis, we also annotate the reasoning categories for a randomly sampled set of 100 dialogs. 粒度分析を容易にするため、ランダムにサンプリングされた100個のダイアログの推論カテゴリも注釈付けする。 0.69
Though each 3We also collected 342 extra instances for which the annotators deem there is only one unique correct answer for the context. それぞれ また、アノテーションがコンテキストに対して1つだけ正しい答えがあると判断する342の追加インスタンスも収集しました。
訳抜け防止モード: それぞれ 3私たちは342件の追加インスタンスも収集しました。 アノテーションは 文脈に対して 唯一の正しい答えだ
0.56
Thus, each of those instances contains one correct option and two incorrect ones. したがって、これらのインスタンスには1つの正しいオプションと2つの間違ったオプションが含まれている。 0.48
We release those instances along with the dataset, though we did not include them in empirical study in this paper. これらのインスタンスはデータセットとともにリリースしましたが、この論文では実証的な研究には含まれていません。 0.64
We consider a broad set of methods and evaluate their performance on our challenge TIMEDIAL dataset. 課題であるTIMEDIALデータセット上で,幅広い手法のセットを検討し,その性能を評価する。 0.65
These methods vary in terms of the modeling paradigms, the scope of the dialog contexts, and training settings. これらの方法は、モデリングパラダイム、ダイアログコンテキストの範囲、トレーニング設定などによって異なります。 0.64
In particular, they encompass the major ways pre-trained LMs are currently used in downstream tasks (§4.1) which often outperform earlier specialized non-pretrained models. 特に、既存の訓練済みのLMが現在下流のタスクで使われている主な方法(4.1)を網羅している。 0.58
We also consider different lengths of context used in reasoning, varying by their vicinity to the masked span (§4.2). また, 推論における文脈の長さも, マスキングスパンの近傍によって異なる(4.2)。 0.71
Finally, we study different training settings, including zero-shot, in-domain, and out-of-domain training (§4.3). 最後に,ゼロショット,インドメイン,アウトオブドメイントレーニング(4.3)など,さまざまなトレーニング設定について検討した。 0.56
4.1 Modeling Paradigms We experiment across three major modeling paradigms: (i) Binary Classification, (ii) Mask Filling, and (iii) Generation. 4.1 モデリングパラダイム (i) バイナリ分類, (ii) マスクフィリング, (iii) 生成の3つの主要なモデリングパラダイムについて実験する。 0.78
Figure 1 shows the different architectures. 図1は異なるアーキテクチャを示しています。 0.68
For each test instance, the model takes as input a pair of (masked dialog context, candidate), and outputs a score measuring how likely the candidate being a correct answer. それぞれのテストインスタンスに対して、モデルを入力として(マスキングされたダイアログコンテキスト、候補)、その候補が正しい答えになる確率を測定するスコアを出力する。 0.79
Based on the prediction scores of all options, the model then chooses the top two positive candidates as the predicted answer for the instance. すべてのオプションの予測スコアに基づいて、モデルがインスタンスの予測回答として上位2つの正の候補を選択する。 0.77
Each paradigm of models is finetuned using training data from different domains, as discussed in §4.3. モデルの各パラダイムは、異なるドメインからのトレーニングデータを使用して微調整される。 0.62
4.1.1 Binary Classification In this setting, we formulate the task as a binary classification problem, i.e., we use a classifier to measure the probability of the candidate in the (masked dialog context, candidate) pair being a correct answer. 4.1.1バイナリ分類 この設定では、タスクをバイナリ分類問題として定式化します。すなわち、正しい回答である(マッシュされたダイアログコンテキスト、候補)ペアにおける候補の確率を測定するために分類器を使用します。 0.74
Any powerful LM — e g , BERT (Devlin et al , 2019), ALBERT (Lan et al , 2019), ROBERTA (Liu et al , 2019), etc. 強力なLM — eg , BERT (Devlin et al , 2019), ALBERT (Lan et al , 2019), ROBERTA (Liu et al , 2019), など。 0.70
can be used to build the classifier. 分類器の構築に使用できる。 0.66
This method’s key challenge is the lack of annotated training data for direct supervision. この方法の主な課題は、直接監督するための注釈付きトレーニングデータの欠如である。 0.63
We generate weak supervision training data as follows. 我々は以下の弱い監督訓練データを生成する。 0.72
In an unlabeled corpus, we use the SUTime tool ラベルのないコーパスでは、SUTimeツールを使用します 0.63
英語(論文から抽出)日本語訳スコア
Figure 1: We study three modeling paradigms for the task, based on BERT and T5, including (1) Classification, (2) Mask Filling, and (3) Generation (§4.1). 図1: BERT と T5 に基づくタスクの3つのモデリングパラダイムについて検討し,(1) 分類,(2) マスクフィリング,(3) 生成(4.1)。
訳抜け防止モード: 図1:タスクのための3つのモデリングパラダイムについて研究する。 1 ) 分類を含む BERT と T5 に基づいている。 (2)マスク充填,(3)生成(4.1)
0.83
The models are finetuned with various training data, as discussed in §4.3. 4.3で述べたように、モデルは様々なトレーニングデータで微調整されている。 0.57
to annotate temporal spans. 時空間に注釈をつけます 0.46
We mask each temporal span in this corpus and use the masked text as one positive example for binary classification. このコーパスの各時空間をマスキングし、二項分類の正の例としてマスク付きテキストを用いる。 0.71
To generate negative example, we randomly sample another temporal span from the dialog context and use it as a negative example for the masked temporal span. 負の例を生成するために、対話コンテキストから別の時間スパンをランダムにサンプリングし、マスクした時間スパンの負の例として使用する。 0.64
The resulting data is noisy because the randomly sampled temporal span can also logically fit in the masked span in the given context; however, we assume the likelihood of that happening is low. 結果として得られたデータは、ランダムにサンプリングされた時間スパンが与えられた文脈でマスクされたスパンに論理的に適合する可能性があるためノイズが多い。 0.63
We leave drawing harder negative instances using heuristics to future work. ヒューリスティックスを使ったより厳しいネガティブな事例を将来の作業に残します。 0.58
4.1.2 Mask Filling We also use the mask filling approach of BERTlike mask language models (MLMs). 4.1.2 Mask Filling BERTライクマスク言語モデル(MLM)のマスクフィリングアプローチも使用します。 0.84
For each dialog context and a candidate temporal span of m tokens, we replace the blank in the dialog context with m masked tokens. 各ダイアログコンテキストとmトークンの候補時間スパンについては、ダイアログコンテキストの空白をmマスクトークンに置き換えます。 0.70
We then evaluate the likelihood of predicting the temporal span tokens for those masked positions, and make average across the positions. 次に,マスキングされた位置に対する時間的スパントークンの予測可能性を評価し,その位置を平均化する。 0.78
A key advantage of this method is that we can directly apply a BERT model in the zero-shot manner since the model was pretrained in the same way, as for accommodating for [MASK] fillings. この方法の重要な利点は、モデルが[mask]充填に適応するのと同じ方法で事前訓練されたので、bertモデルをゼロショット方式で直接適用することができることである。 0.68
Additionally, we also finetune BERT’s MLM for learning task specific properties. さらに,タスク固有の特性を学習するためにBERTのMLMを微調整する。 0.60
4.1.3 Generation The third method is a fully generative approach using the text-to-text paradigm of T5 (Raffel et al , 2020). 4.1.3 生成 3番目の方法は、T5(Raffel et al , 2020)のテキストからテキストへのパラダイムを用いた完全な生成手法である。 0.61
Given a masked dialog context, the model is trained to generate the masked text in an encoderdecoder framework. マスク付きダイアログコンテキストが与えられた場合、モデルがトレーニングされ、エンコーダデコーダフレームワークでマスク付きテキストを生成する。 0.70
As a result, evaluating the likelihood of generating the given temporal span (normalized with the length of the span) is used as the probability of it being correct. その結果、与えられた時間的スパン(スパンの長さで正規化された)を発生させる可能性を評価することが正しい確率として用いられる。 0.82
Similar to mask filling, we use T5 either in a zero-shot manner or with additional fine-tuning. 仮面に似ている。 t5はゼロショット方式か、追加の微調整で使用します。 0.53
4.2 Dialog Context We aim to study the influence of context on a model’s temporal reasoning in dialog by incorporating varying scopes of dialog context based on their vicinity to the target span. 4.2 ダイアログ・コンテキスト ダイアログにおける時間的推論における文脈の影響を,その近傍から対象領域までの距離に応じた様々なダイアログ・コンテキストを組み込むことで検討することを目的とする。 0.71
Since the dialogs in TIMEDIAL are rich in temporal concepts, we want to evaluate LMs’ dependence on shallow text matching vs. the ability to accurately understand the causal relations between those concepts (see Table 6). TIMEDIALのダイアログは時間的概念に富んでいるので、これらの概念間の因果関係を正確に理解する能力よりも、浅いテキストマッチングへのLMsの依存を評価したい(表6参照)。 0.80
We use the following three settings: 私たちは以下の3つの設定を使います。 0.57
• Full context, where the model is presented with the complete available dialog to reason on. • 完全なコンテキストでは、モデルを推論するために、完全に利用可能なダイアログが提示されます。 0.68
Due to our design of challenging negatives, the full context can often confuse models that rely on shallow cues. 挑戦的な負の設計のため、完全なコンテキストはしばしば浅い手がかりに依存するモデルを混乱させます。 0.69
• Local context, where we provide only with the utterances that immediately precede and follow the target utterance. • ローカルコンテキストでは、ターゲットの発話に先行して追従する発話のみを提供する。 0.68
• Target context, where the context is restricted to only the particular utterance that contains the masked span. • ターゲットコンテキスト — コンテキストは、マスクされたスパンを含む特定の発話のみに制限される。 0.75
4.3 Training Details For all models, we consider two common training settings, e g , in-domain data, which is typically small, and out-of-domain training where a large amount of data is available. 4.3 トレーニングの詳細 すべてのモデルについて、一般的に小さいドメイン内データと大量のデータが利用可能なドメイン外トレーニングという、2つの一般的なトレーニング設定を検討します。 0.69
Table 4 shows training data statistics. 表4はトレーニングデータ統計を示しています。 0.63
For mask-filling and generation, we also evaluate in a zero-shot setup with no finetuning. マスクの充填と生成には,ゼロショット設定を微調整することなく評価する。 0.63
In-domain training. ドメイン内トレーニング。 0.66
Our challenge TIMEDIAL test set is derived from contextually rich dialogs 我々の挑戦 TIMEDIAL テストセットは文脈的に豊かなダイアログから導かれる 0.72
Input: [CLS] A: A: I’m … B: My holiday is only [MASK] … [SEP] six weeksClassification LayerBERTOutput:1(1) ClassificationInput: [CLS] A: I’m … B: My holiday is only [MASK] [MASK] ….BERTOutput:six weeks(2) Mask FillingT5 EncoderT5 DecoderInput: A: I’m … B: My holiday is only [MASK] ….Output:(3) Generationsix weeksInput:…… B: No, not all summer. 入力: [CLS] A: A: I'm ... B: My holiday is only [MASK] ... [SEP] 6 weeks Classification LayerBERTOutput:1(1) ClassificationInput: [CLS] A: I'm ... B: My holiday is only [MASK] [MASK] ....BERTOutput:six weeks(2) Mask FillingT5 EncoderT5 DecoderInput: A: I'm ... B: My holiday is only [MASK] ....Output:(3) Generationsix weeksInput:... B: No, No, All summer. 0.94
Just for six weeks. A: I am afraid I can only rent it for two months. わずか6週間。 A: 2ヶ月しか借りられないのが残念です。 0.57
B: My holiday is only _______, but I think my brother and his family would take it for the other two weeks.Options:a)six decades b) 45 days c) six weeks d) two months B:私の祝日は _______ に過ぎませんが、弟と彼の家族はあと2週間は受け取ります(オプション:a)6日45日c)6週間d)
訳抜け防止モード: B:私の休日は__________ しかし、私の兄と彼の家族は次の2週間はそれを取るだろう。 オプション:a)6歳(b)45日(c)6週間(d)2ヶ月
0.85
英語(論文から抽出)日本語訳スコア
Mask Filling and Generation # Dev 2.4K 23K マスクの充填と生成 # Dev 2.4K 23K 0.66
# Train 14.5K 1.26M #14.5K 1.26M 0.44
In-domain (Daily) Out-domain (Meena) インドメイン(日常)外ドメイン(ミーナ) 0.55
In-domain (Daily) Out-domain (Meena) インドメイン(日常)外ドメイン(ミーナ) 0.55
Classification # Train 58.0K 5.04M 分類 # 58.0k 5.04m 0.51
# Dev 9.6K 92K # Dev 9.6K 92K 0.65
# Spans 2,153 38,750 #Spans 2,153 38,750 0.64
Table 4: Number of training and development instances for different settings. 表4: 異なる設定のためのトレーニングと開発インスタンスの数。 0.87
An instance is derived by masking one temporal span of a dialog. インスタンスはダイアログの1つの時間的スパンをマスキングすることによって引き起こされる。 0.58
For classification, we draw 3 negative samples per positive sample. 分類には正のサンプルあたり3つの負のサンプルを描画する。 0.70
“# Spans” is the size of temporal span pool from which negative samples are drawn for weak supervision. # Spans”は一時的なスパンプールのサイズであり、負のサンプルが弱い監視のために描画される。 0.74
from the DailyDialog dataset, based on the number of temporal spans. DailyDialogデータセットから、時間的スパンの数に基づいて。 0.74
However, this still leaves remaining data with less than 3 temporal spans or with no numeric span. しかし、まだ3つ未満の時間的スパンや数値的スパンが残っていないデータが残っている。 0.61
By masking each temporal span in each dialog, we obtain 14.5K training instances to use in our domain specific fine-tuning. 各ダイアログの各時間スパンをマスキングすることで、ドメイン固有の微調整で使用する14.5Kのトレーニングインスタンスを得る。 0.64
Out-of-domain training. ドメイン外のトレーニング。 0.52
In this setting, we consider a much larger corpus from a general domain. この設定では、一般的なドメインよりはるかに大きなコーパスを考える。 0.57
Specifically, we use the large scale training set based on the Meena dataset Adiwardana et al (2020), which is mined and filtered from public domain social media conversations over 341GB of text (40B words).4 Compared to the above indomain data from DailyDialog which were manually written by human annotators in a clean and consistent way, the dialogs in the Meena corpus tend to be noisy, casual, and usually short. 具体的には,MeenaのデータセットであるAdiwardana et al (2020)をベースとした大規模トレーニングセットを用いて,341GBのテキスト(40Bワード)上でのパブリックドメインのソーシャルメディア会話から抽出・フィルタリングした。
訳抜け防止モード: 具体的には、MeenaデータセットAdiwardana et al(2020)に基づく大規模なトレーニングセットを使用する。 パブリックドメインのソーシャルメディアの会話から341GBのテキスト(40Bワード)をマイニングしてフィルタリングする。4 DailyDialogの上のドメインデータと比較する。 人間が手書きで クリーンで一貫した方法で書きました Meena corpus (複数形 Meena corpuss) 騒々しく カジュアルで たいていは短い
0.71
Like our DailyDialog processing, we identify all temporal expressions for dialogs in Meena using SUTime. デイリーダイアログ処理と同様に、SUTime を用いて Meena のダイアログの時間表現をすべて識別する。 0.63
5 Experiments and Analyses Using the proposed TIMEDIAL challenge set, we next conduct extensive experiments and analyses on the different model variants and context settings. 5 実験と解析 次に、提案したTIMEDIALチャレンジセットを用いて、異なるモデル変種とコンテキスト設定に関する広範な実験と分析を行う。 0.80
We use either 4x4 or 8x8 Cloud TPUs V3 pod slices5 for fine-tuning and one V100 GPU for inference. 微調整には4x4または8x8 Cloud TPUs V3 pod slices5、推論には1つのV100 GPUを使用します。 0.60
We provide more details of the experiment configurations in the appendix. 実験の構成については、付録で詳しく説明します。 0.63
Evaluation. Since each example of TIMEDIAL contains two correct answers, we report the metric 2-best accuracy, which measures whether both of the model’s top-ranked answers are correct. 評価。 TIMEDIALのそれぞれの例には2つの正しい解があるので、モデルの上位の解が正しいかどうかを計測する2-bestの精度を報告する。 0.69
In 4We acquired a trimmed down version of the Meena 院 4私たちはMeenaのトリミング版を購入した 0.59
dataset by contacting the authors. 著者との接触によるデータセット。 0.60
5https://cloud.googl e.com/tpu 5https://cloud.googl e.com/tpu 0.36
SIZE-TRAIN 2-best Acc (%) サイズトレイン 2-best Acc (%) 0.63
Classification (BERT) BASE-OUT BASE-IN LARGE-OUT LARGE-IN 分類(BERT) base-out (複数形 base-outs) 0.53
Mask Filling (BERT) mask (複数形 masks) 0.71
BASE-ZERO BASE-OUT BASE-IN LARGE-ZERO LARGE-OUT LARGE-IN ベースゼロベース・アウト・ベース・イン・ラージゼロ・アウト・ラージイン 0.57
Generation (T5) BASE-ZERO BASE-OUT BASE-IN LARGE-ZERO LARGE-OUT LARGE-IN Human 世代(T5) ベースゼロ・アウト・ベース・イン・ラージゼロ・アウト・ラージ・アウト・ラージ・インヒト 0.67
43.1 51.1 48.7 53.2 43.1 51.1 48.7 53.2 0.45
44.8 47.4 67.4 47.7 54.8 70.0 44.8 47.4 67.4 47.7 54.8 70.0 0.43
39.8 50.6 59.2 39.1 61.9 74.8 39.8 50.6 59.2 39.1 61.9 74.8 0.43
97.8 Table 5: Model and human performance on TIMEDIAL. 97.8 表5: TIMEDIALのモデルと人間のパフォーマンス。 0.71
BASE and LARGE denote the size of the pre-trained BERT and T5; ZERO, IN, and OUT denote that the model is zero-shot (with no finetuning), fintuned using the in-domain DailyDialog data, or finetuned using the out-of-domain Meena data, respectively. BASE と LARGE は、事前訓練されたBERT と T5 のサイズを表し、ZERO と IN と OUT は、モデルがゼロショット(微調整なし)で、ドメイン内DailyDialog のデータを使って調整され、ドメイン外の Meena データを使って微調整されていることを示す。 0.55
THe full dialog context is used for all models. 完全なダイアログコンテキストは、すべてのモデルに使用される。 0.72
other words, if the model erroneously ranks an incorrect answer over a correct one, we consider it to be an error case. 言い換えると、もしモデルが間違った答えを正しい答えよりも誤ってランク付けした場合、エラーケースであると考える。 0.75
Note that we use the rankingbased metric as opposed to classification-based ones (for example, by asking the model to classify whether each individual candidate answer is correct or not (e g , Zhou et al , 2019)) and because it presents a stricter measure that penalizes any incorrect answers being ranked over correct answers, and the ranking metric is not influenced by specific choices of the threshold hyperparameter that cuts off positive and negative predictions. 分類に基づく指標(例えば、個々の候補の回答が正しいかどうかを分類するためにモデルに尋ねる(例えば、周等、2019年)ことや、正しい回答に対してランク付けされている不正確な回答をペナライズする厳格な尺度を示すこと、そしてランキング指標は、正と負の予測を遮断する閾値超パラメータの特定の選択に影響されないことに注意する。 0.80
5.1 Model Performance Table 5 shows model results and human performance. 5.1 モデルパフォーマンス表5は、モデル結果と人的パフォーマンスを示す。 0.75
Human performance achieves a nearperfect level (97.80, with Cohen’s kappa score of 0.86 showing almost perfect inter-rater agreement (Landis and Koch, 1977)). 人間のパフォーマンスは、ほぼ完全なレベル(97.80)に達し、cohenのkappaスコアは0.86でほぼ完全である(landis and koch, 1977)。 0.72
Overall. The generation model based on T5LARGE and finetuned on the in-domain DailyDialog data achieves the best performance. 総じて。 ドメイン内DailyDialogデータに基づいて微調整されたT5LARGEに基づく生成モデルは、最高の性能を達成する。 0.60
However, its 2-best accuracy (74.8) lagged far behind the human performance, demonstrating the difficulty of the TIMEDIAL challenge set. しかし、その2-best accuracy (74.8) は人間のパフォーマンスよりはるかに遅れており、タイムディアルチャレンジセットの難しさを示している。 0.70
英語(論文から抽出)日本語訳スコア
. Dialog Context A: What’s the date today? . ダイアログコンテキストa: 今日は何日ですか? 0.73
B: Today is September 28th, 2007. B:今日は2007年9月28日です。 0.79
A: I have a meeting this afternoon. A:今日の午後会議があります。 0.76
B: When will it begin? B: いつから始まりますか? 0.84
A: It will begin at three o’clock. a: 3時に始まります。 0.49
What’s the time now? B: It is A: I have to go now. 今は何時か? b: a:私は今行かなければなりません。 0.68
I don’t want to be late. 私は遅刻したくない。 0.49
B: Don’t worry, time is enough. B: 心配しないで、時間だけで十分です。 0.82
A: Doctor, I feel much better now. A: 先生、今よりずっと気分が良くなりました。 0.61
Will I be able to go home some time this week? 今週はいつか家に帰れるでしょうか。 0.52
B: That’s good to hear. b: 聞いてよかったです。 0.56
You’ve had an ideal recovery from your operation. あなたは手術から理想的な回復を遂げた。 0.69
We’re going to send you home tomorrow. 私たちは明日あなたを家に送るつもりです。 0.87
A: Do you think I can get back to work very soon? a: すぐに仕事に戻れると思いますか? 0.59
B:Don’t be in such a hurry. B:そんなに急いではいけません。 0.71
I’m confident that you’ll be completely recovered in . 今後完全に回復すると確信している」と述べた。 0.52
A: Is there anything I should do? A: 何かすべきことがありますか。 0.70
B: You’d better have a good rest for a week. B: 1週間はゆっくり休んだ方がいいですね。 0.67
Options GOLD CLS オプション GOLD CLS 0.83
MF GEN half past one quarter to two half past three half past nine MF ゲン 四分の一から半分半、三分半から九分 0.67
4 to 6 weeks 5 to 7 weeks 4から6週間 5から7週間 0.76
a week a day    1日1週間    0.80
            0.85
            0.85
            0.85
            0.85
     Table 6: Example prediction errors made by different models for cases with challenging options, based on the phrase and numeral matching rules (§3).      表6: フレーズと数字のマッチングルールに基づいて、難解なオプションを持つ場合の異なるモデルによる予測エラーの例(3)。 0.85
GOLD denotes the true labels. GOLDは真のラベルを表す。 0.76
The model predictions show that the models get confused by learning shallow text matching in terms of pre-existing temporal concepts (marked by bold faced text) in the context. モデル予測は、コンテキスト内の既存の時間概念(大胆なテキストでマークされる)の観点で、浅いテキストマッチングを学習することによって、モデルが混乱することを示している。 0.64
out-of-domain vs. out-of-domain vs. 0.59
in-domain. Zero-shot vs. ドメイン内。 ゼロショット vs. 0.73
When comparing the different training data setup, we observe that models with in-domain training using the DailyDialog data (e g , LARGE-IN) consistently outperforms those trained on the large out-ofdomain Meena dataset (e g , LARGE-OUT). 異なるトレーニングデータセットを比較すると、dailydialogデータ(例えば、big-in)を使用したドメイン内トレーニングモデルが、ドメイン外データセット(例えば、 large-out)でトレーニングされたモデルよりも一貫して優れています。 0.67
Both setups outperform the zero-shot models (without any fine-tuning) (e g , LARGE-ZERO). どちらのセットアップもゼロショットモデル(微調整なし)よりも優れています(例: LARGE-ZERO)。 0.67
The results show that the large LMs still highly depend on indomain or at least dialog data to grasp and enhance their temporal reasoning ability in dialog context. その結果,大きなLMは依然としてドメインや少なくともダイアログデータに大きく依存しており,ダイアログコンテキストにおける時間的推論能力の把握と向上を図っていることがわかった。 0.60
Further, we see increasing performance with increasing model size, which is not unexpected given the complexity of the task. さらに,作業の複雑さを考えると,モデルサイズの増加に伴ってパフォーマンスが向上するのも意外ではない。 0.79
5.2 Error Analysis Figure 2: Percentage of errors on options created by different rules. 5.2 エラー解析 図2:異なるルールによって作成されたオプションのエラーの割合。 0.71
CLS, MF, and GEN represent classification, mask-filling, and generation models, respectively; and IN and OUT denote in-domain and out-of-domain training. CLS、MF、GENはそれぞれ分類、マスクフィリング、生成モデルを表し、INとOUTはドメイン内トレーニングとドメイン外トレーニングを表す。 0.65
All models are of large size. すべてのモデルは大きなサイズです。 0.84
Next, we analyze the different types of errors based on different rules for negative option creation in the annotation process. 次に,アノテーションプロセスにおける負のオプション生成のための異なるルールに基づいて,エラーの種類を分析する。 0.78
In particular, the phrase matching rule picks an exact time span from the dialog context, and numeral matching picks numerals from the dialog context. 特に、句マッチングルールは、ダイアログコンテキストから正確な時間スパンを選択し、数字マッチングは、ダイアログコンテキストから数字を選択する。 0.67
Thus, models picking those incorrect options imply reliance on spurious shallow text matching features. したがって、これらの誤ったオプションを選択するモデルは、急激な浅いテキストマッチング機能に依存している。 0.50
Figure 2 shows the percentage of errors in terms of the different rules. 図2は、異なるルールの観点からエラーの割合を示しています。 0.77
For example, the BERTbased classification model CLS-IN erroneously picks 52% of negative options created by the phrase matching rule as correct answers (i.e., by ranking those negative options over the true correct options). 例えば、BERTベースの分類モデル CLS-IN は、フレーズマッチングルールによって生成される負のオプションの52%を正しい答えとして誤って選択する(すなわち、それらの負のオプションを真の正しい選択肢よりもランク付けする)。 0.61
We observe that the various models are all most vulnerable to the phrase matching options compared 私たちは、様々なモデルがフレーズマッチングの選択肢に対して最も脆弱であるのを観察します。 0.60
to other types of negative options, showing that they rely on spurious text matching to a significant extent. 他のタイプのネガティブなオプションにも当てはまり、相当量のテキストマッチングに頼っていることを示している。 0.65
Between BERT and T5, we find T5 being more robust to shallow text matching. BERT と T5 の間では、T5 は浅いテキストマッチングよりも堅牢である。 0.78
Table 6 provides further examples of prediction errors, illustrating confusions due to shallow text matching. 表6は、予測エラーのさらなる例を提供し、浅いテキストマッチングによる混乱を示す。 0.74
In the first dialog, both incorrect answers already partially occur in the context or are related to preexisting concepts (i.e., “three” to “three o’clock”, and “nine” to “September”). 最初のダイアログでは、両方の誤った答えは、すでに文脈で部分的に発生しているか、あるいは既存の概念(「三時」から「三時」、「九時」)と関連している。 0.72
All the three models were confused and chose either of the two as the top prediction for the blank, even though the options clearly violate the context. いずれのモデルも混乱し、どちらのモデルも空白の上位予測として選ばれたが、オプションは明らかに文脈に反するものであった。 0.74
Interestingly, the mask filling model was completely confused and ranked both incorrect answers over the correct ones. 興味深いことに、マスクのフィリングモデルは完全に混乱しており、正解と誤解の両方をランク付けしていた。 0.55
Similarly in the second example, 同様に、第2の例では 0.76
00.150.30.450.6CLS-I NCLS-OUTMF-INMF-OUTG EN-INGEN-OUTError-Ph rase MatchingError-Numera l MatchingError-Open-e ndedTable 1ModelError 1Error 2Error 3CLS-IN0.524663680.1 96734690.20594634CLS -OUT0.551569510.1804 08160.2559826MF-IN0. 186098650.10775510.1 5663524MF-OUT0.26905 830.178775510.248730 96GEN-IN0.195067260. 062857140.14503263GE N-OUT0.298206280.124 897960.21392313BERTT 51 00.150.30.450.6cls-i ncls-outmf-inmf-outg en-ingen-outerror-ph rase matchingerror-matchi ngerror-open-endedta ble 1modelerror 1error 2cls-in0.524663680.1 96734690.20594634cls -out0.551569510.1804 08160.2559826mf-in0. 186098650.10775510.1 56626mf-out0.2690583 0.178775510.24873096 gen-in0.195067260.06 285747453263gen-out0 .2982028898989303013 bertt51 0.08
英語(論文から抽出)日本語訳スコア
Size Training BASE IN サイズトレーニング 基地 0.58
OUT LARGE IN OUT out 大型車 out 0.53
Classification (BERT) TARGET LOCAL FULL 分類(BERT) ターゲット・ローカル・フル 0.54
TARGET LOCAL FULL ターゲット・ローカル・フル 0.26
TARGET LOCAL FULL ターゲット・ローカル・フル 0.26
40.0 50.5 47.5 + 3.4 + 3.3 + 7.5 + 2.0 − 0.6 − 0.1 + 2.7 + 1.2 Mask Filling (BERT) 40.0 50.5 47.5 + 3.4 + 3.3 + 7.5 + 2.0 − 0.6 − 0.1 + 2.7 + 1.2 Mask Filling (BERT) 0.61
50.5 57.8 46.8 + 5.4 + 3.0 + 8.1 + 4.9 + 9.6 + 3.1 + 9.6 + 8.0 50.5 57.8 46.8 + 5.4 + 3.0 + 8.1 + 4.9 + 9.6 + 3.1 + 9.6 + 8.0 0.58
44.3 60.3 Generation (T5) 55.5 56.1 + 3.7 + 2.7 + 6.1 + 3.7 + 3.7 + 4.7 + 8.2 + 5.8 44.3 60.3 Generation (T5) 55.5 56.1 + 3.7 + 2.7 + 6.1 + 3.7 + 3.7 + 4.7 + 8.2 + 5.8 0.60
45.9 66.7 Table 7: Impact of dialog context on reasoning accuracy. 45.9 66.7 表7: ダイアログコンテキストが推論精度に及ぼす影響。 0.65
IN and OUT denote in-domain and out-of-domain training, respectively. INとOUTはそれぞれドメイン内トレーニングとアウト・オブ・ドメイントレーニングを意味する。 0.47
We use 2-best accuracy of target context as reference and report the absolute changes in performance of local and full context, respectively. 対象コンテキストの2-best精度を基準として,ローカルコンテキストとフルコンテキストのパフォーマンスの絶対変化を報告する。 0.72
Local dialog context results in better performance to full dialog context on 5 of the 12 cases, which are highlighted in the table. ローカルダイアログコンテキストは、テーブルでハイライトされる12のケースのうち5つで、フルダイアログコンテキストのパフォーマンスが向上する。 0.73
the models fail to capture the contextual semantics. モデルは文脈のセマンティクスを 捉えるのに失敗する 0.70
Influence of Dialog Context 対話コンテキストの影響 0.68
5.3 Table 7 shows how different scopes of dialog context (§4.2) affect model performance. 5.3 Table 7は、ダイアログコンテキストの異なるスコープがモデルパフォーマンスにどのように影響するかを示す。 0.68
First, the most restrictive target-only context is insufficient for accurate reasoning, by producing the weakest performance of most models. まず、最も制約のあるターゲットのみのコンテキストは、ほとんどのモデルの最も弱い性能を生成することによって、正確な推論には不十分である。
訳抜け防止モード: まず、最も制限のあるターゲット - 正確な推論にはコンテキストのみが不十分である。 ほとんどのモデルの最も弱い性能を 生み出すことです
0.63
This highlights the importance of context information for temporal commonsense reasoning in dialog, which differs from previous temporal reasoning studies based on limited context (e g , single-sentence question answering). これは、限られた文脈(例えば、単文質問応答)に基づく以前の時間的推論研究とは異なる、対話における時間的常識推論における文脈情報の重要性を強調している。 0.69
Second, we note that the full dialog context does not always lead to the best performance. 第二に、完全なダイアログコンテキストが必ずしも最高のパフォーマンスにつながるとは限らないことに注意する。
訳抜け防止モード: 第二に 完全なダイアログコンテキストが必ずしも最高のパフォーマンスにつながるとは限らない。
0.76
In 5 out of the 12 cases, using the local context yields equal or higher reasoning accuracy. 12のケースのうち5つで、ローカルコンテキストを使用すると、推論精度が同等かそれ以上になる。 0.64
The results show that the LMs still fall short of properly modeling the rich dialog contexts and making effective use of all information to do reasoning. その結果、lmsは、リッチなダイアログコンテキストを適切にモデル化し、推論を行うためにすべての情報を効果的に利用することには不足していることがわかった。
訳抜け防止モード: その結果 lmsが不足していることが分かりました リッチなダイアログコンテキストを適切にモデル化し、推論を行うためにすべての情報を効果的に利用します。
0.61
5.4 Errors of Reasoning Categories Figure 3 shows the percentage of errors in each reasoning category. 5.4 推論カテゴリのエラー 図3は推論カテゴリ毎のエラーの割合を示しています。 0.79
We observe that the models tend to make non-trivial portions of errors on commonsense/world knowledge questions. 我々は、モデルがコモンセンス/ワールドナレッジ問題に非自明な誤りを生じさせる傾向があることを観察する。 0.49
For example, the strongest model, T5 GEN-IN, failed on 18% of the instances that require commonsense or world knowledge, while BERT CLS-IN made errors on 48% of such instances. 例えば、最強のモデルであるT5 GEN-INはコモンセンスや世界知識を必要とするインスタンスの18%で失敗し、BERT CLS-INはそのようなインスタンスの48%でエラーを起こした。 0.68
The performance Figure 3: Percentage of errors on different reasoning types. 上演 図3: 異なる推論タイプのエラーの割合。 0.48
CLS, MF, and GEN represent classification, mask-filling, and generation models, respectively. CLS、MF、GENはそれぞれ分類、マスクフィリング、生成モデルを表す。 0.62
All models are of large size. すべてのモデルは大きなサイズです。 0.84
on comparison-based instances seems similar. 比較ベースのインスタンスは似ています。 0.58
6 Related Work Temporal commonsense reasoning. 6 関連業務の時間的常識推論 0.73
Early studies related to temporal analysis define time in the context of sets and relations (Bruce, 1972; Allen, 1983). 時間解析に関する初期の研究は、集合と関係の文脈で時間を定義する(Bruce, 1972; Allen, 1983)。 0.85
More recent works often associate time with events and focus on identifying time expressions (Chang and Manning, 2012; Angeli et al , 2012; Lee et al , 2014), extracting temporal relations among events (Setzer and Gaizauskas, 2000; Pustejovsky et al , 2005; Lapata and Lascarides, 2006; Chambers et al , 2007; Ning et al , 2018b), and timeline construction (Do et al , 2012; Leeuwenberg and Moens, 2018). より最近の研究は、時間とイベントを関連付け、時間表現の特定(Chang and Manning, 2012; Angeli et al , 2012; Lee et al , 2014)、イベント間の時間的関係(Setzer and Gaizauskas, 2000; Pustejovsky et al , 2005; Lapata and Lascarides, 2006; Chambers et al , 2007; Ning et al , 2018b)、タイムライン構築(Do et al , 2012; Leeuwenberg and Moens, 2018)に焦点を当てている。 0.87
Some recent work has focused on building challenging benchmarks for temporal commonsense reasoning. 最近の研究は、時間的常識推論のための挑戦的なベンチマークの構築に焦点を当てている。 0.45
Story Cloze Test focuses on stereotypical causal temporal and causal relations between events (Mostafazadeh et al , 2016). Story Cloze Testは、イベント間のステレオタイプ的因果関係と因果関係に焦点を当てている(Mostafazadeh et al , 2016)。 0.70
Vashishtha et al (2020) recast temporal reasoning datasets for event duration and event ordering into the natural language inference (NLI) format. Vashishtha et al (2020) は、イベント時間とイベント順序の時間的推論データセットを自然言語推論(NLI)フォーマットに再放送した。 0.78
Turque (Ning et al , 2020) is an reading comprehension dataset where the model needs to answer questions such as “what happens before/after [event]”. turque (ning et al , 2020)は、モデルが“イベントの前後で何が起こるか”といった質問に答える必要がある、リーディング理解データセットである。
訳抜け防止モード: Turque (Ning et al, 2020 )は読解理解データセットである モデルは、“イベントの前/後”といった質問に答える必要があります。
0.81
Most related to our work is McTaco (Zhou et al , 2019), a dataset for evaluating temporal commonsense in the form of multiple-choice reading comprehension, where the context usually consists of a single sentence. 私たちの研究に最も関係しているのがMcTaco(Zhou et al , 2019)で、これは時間的コモンセンスを多重選択読解の形で評価するためのデータセットで、コンテキストは通常、1つの文からなる。
訳抜け防止モード: 私たちの仕事で最も近いのはMcTaco(Zhou et al, 2019)です。 複数の選択読解という形で時間的常識を評価するデータセット 通常、文脈は1つの文から構成される。
0.75
Our work instead studies temporal commonsense reasoning in dialogs which often require significant commonsense and world knowledge to reason over rich context (Qin et al , 2019b; Dinan et al , 2018). 我々の研究は、豊かな文脈(Qin et al , 2019b; Dinan et al , 2018)において、重要なコモンセンスと世界知識を必要とするダイアログにおける時間的コモンセンス推論を研究する。 0.65
Commonsense reasoning with LMs. LMによる常識推論。 0.74
With the recent success of large pre-trained language models 大規模事前学習型言語モデルの成功にともなって 0.76
Table 1Commonsense/World knowledge ComparisonArithmetic /OthersCLS-IN0.47692 307690.54166666670.6 363636364CLS-OUT0.41 538461540.4583333333 0.2727272727MF-IN0.2 4615384620.208333333 30.09090909091MF-OUT 0.35384615380.333333 33330.3636363636GEN- IN0.18461538460.1666 6666670.1818181818GE N-OUT0.23076923080.4 1666666670.272727272 70.000.180.350.530.7 0CLS-INCLS-OUTMF-INM F-OUTGEN-INGEN-OUTCo mmonsense/World knowledgeComparisonA rithmetic/OthersBERT T51 表1Commonsense/World knowledge ComparisonArithmetic /OthersCLS-IN0.47692 307690.54166666670.6 363636364CLS-OUT0.41 538461540.4583333333 0.27272727MF-IN0.246 15384620.20833333333 390909091MF-OUT0.353 84615383333333333.36 36363636gen-IN0.1846 1538466666666670.181 8181818gen-out0.2307 6923080.416666677272 72727270.000.1803530 70CLS-INS-CLS-F-F-IN 26266667727272727270 .000.1803030303030CL S 0.07
英語(論文から抽出)日本語訳スコア
(LMs) (Devlin et al , 2019; Brown et al , 2020), it is an open question whether these models, pretrained on large amounts of data, capture commonsense knowledge. (LMs) (Devlin et al , 2019; Brown et al , 2020) では、これらのモデルが大量のデータに基づいて事前訓練され、常識的知識を捉えているかどうかが疑問視されている。
訳抜け防止モード: (LMs) (Devlin et al, 2019; Brown et al, 2020) オープンな疑問です これらのモデルは大量のデータに基づいて事前訓練され 常識的な知識を捉えます
0.85
Several works have been proposed to assess the ability of LMs for commonsense or numerical reasoning (Zhang et al , 2020; Bouraoui et al , 2020), or to mine commonsense knowledge from LMs (Davison et al , 2019). いくつかの研究が、コモンセンスや数値推論のためのLMの能力を評価する(Zhang et al , 2020; Bouraoui et al , 2020)か、あるいはコモンセンスの知識をLMからマイニングする(Davison et al , 2019)。 0.71
Lin et al (2020) showed that state-of-the-art LMs such as BERT and RoBERTa performs poorly on numerical reasoning tasks without any finetuning. Lin et al (2020) は、BERT や RoBERTa のような最先端の LM が微調整なしで数値推論タスクをうまく実行できないことを示した。 0.59
Works have also been proposed to improve language model’s commonsense reasoning (Qin et al , 2020, 2019a; Zhou et al , 2020) and numerical reasoning abilities (Geva et al , 2020). また、言語モデルの常識推論(Qin et al , 2020, 2019a; Zhou et al , 2020)と数値推論能力(Geva et al , 2020)を改善するための作業も提案されている。 0.92
In our work, we study several modeling approaches and finetuning settings of large LMs, and establish strong baselines for temporal commonsense reasoning in dialogs. 本研究では,大規模なLMのモデリング手法と微調整設定について検討し,ダイアログにおける時間的コモンセンス推論のための強力なベースラインを確立する。 0.60
7 Conclusions We introduced TIMEDIAL, a challenge set consistting of 1.1K multiple-choice cloze questions for temporal commonsense reasoning in dialog. 7 結論 ダイアログにおける時間的コモンセンス推論のための1.1Kの複数選択質問からなる課題セットであるTIMEDIALを導入した。 0.59
The dataset is carefully curated to evaluate a models’ ability to do temporal commonsense/numerica l reasoning over dialog context. データセットは、ダイアログコンテキスト上で時間的コモンセンス/数値的推論を行うモデルの能力を評価するために注意深くキュレートされます。 0.60
In order to establish strong baselines and provide information on future model development, we conducted extensive experiments with state-of-the-art language models with different settings: the scope of context, weak supervision strategies, and learning objectives. 強靭なベースラインを確立し,将来的なモデル開発に関する情報を提供するため,コンテキストの範囲,弱い監督戦略,学習目標など,異なる設定の最先端言語モデルを用いた広範な実験を行った。 0.81
While humans can easily answer these questions (97.8% accuracy), even our best model variant (T5-large with in-domain training) struggles on this challenge set (73%). 人間はこれらの質問に簡単に答えられるが(精度は97.8%)、最も優れたモデル変種(ドメイン内トレーニングを伴うT5-large)でさえ、この挑戦セット(73%)で苦労している。 0.60
Moreover, our qualitative error analyses show that these large language models often rely on shallow, spurious features (particularly text matching) when answering these questions, instead of truly doing reasoning over the context. さらに、我々の定性的誤り分析は、これらの大きな言語モデルは、文脈を真に推論するのではなく、これらの質問に答える際に、浅い(特にテキストマッチング)機能に依存していることを示している。 0.62
References Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al 2020. Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al 2020を参照。 0.88
Towards a human-like open-domain chatbot. 人間のようなオープンドメインチャットボットを目指す。 0.42
arXiv preprint arXiv:2001.09977. arXiv preprint arXiv:2001.09977 0.71
James F Allen. ジェームズ・f・アレン 0.66
1983. Maintaining knowledge about temporal intervals. 1983. 時間間隔に関する知識の維持。 0.77
Communications of the ACM, 26(11):832–843. acmの通信は26(11)832-843。 0.73
James F Allen. ジェームズ・f・アレン 0.66
1984. Towards a general theory of action and time. 1984. 行動と時間の一般的な理論に向けて。 0.81
Artificial intelligence, 23(2):123– 154. 人工知能、23(2):123–154。 0.74
Gabor Angeli, Christopher D Manning, and Dan Jurafsky. Gabor Angeli、Christopher D Manning、Dan Jurafsky。 0.72
2012. Parsing time: Learning to interpret time expressions. 2012. 解析時間: 時間表現の解釈を学ぶ。 0.80
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Zied Bouraoui, Zied Bouraoui 0.55
and S. Schockaert. そしてS. Schockaert。 0.84
2020. Inducing relational knowledge from bert. 2020. リレーショナル知識を bert から引き出す。 0.73
In Proc. of AAAI. Proc。 AAAIの略。 0.62
Jos´e Camacho-Collados, Jos ́e Camacho-Collados 0.60
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. トム・B。 Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, McCandlish, Alec Radly Ia Sutsk, Dario Amai 0.79
2020. Language models are few-shot learners. 2020. 言語モデルはわずかな学習者です。 0.77
Bertram C Bruce. バートラム・c・ブルース 0.48
1972. A model for temporal references and its application in a question answering program. 1972. 質問応答プログラムにおける時間参照のモデルとその適用 0.76
Artificial intelligence, 3:1–25. 人工知能、3:1-25。 0.47
Nathanael Chambers, Shan Wang, and Dan Jurafsky. Nathanael Chambers、Shan Wang、Dan Jurafsky。 0.69
2007. Classifying temporal relations between events. 2007. イベント間の時間的関係を分類する。 0.75
In Proc. of ACL. Proc。 ACLの略。 0.63
Angel X Chang and Christopher D Manning. Angel X ChangとChristopher D Manning。 0.80
2012. Sutime: A library for recognizing and normalizing time expressions. 2012. Sutime: 時間表現の認識と正規化のためのライブラリ。 0.83
In Proc. of LREC. Proc。 LRECの略。 0.61
Joe Davison, Joshua Feldman, and Alexander Rush. Joe Davison、Joshua Feldman、Alexander Rush。 0.67
2019. Commonsense knowledge mining from pretrained models. 2019. 事前訓練されたモデルからの常識知識マイニング。 0.71
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. BERT: Pre-training of deep bidirectional transformers for language understanding. 2019. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.81
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. Emily Dinan、Stephen Roller、Kurt Shuster、Angela Fan、Michael Auli、Jason Weston。 0.73
2018. Wizard of wikipedia: Knowledge-powered conversational agents. 2018. ウィキペディアの魔法:知識を駆使した会話エージェント。 0.77
In Proc. of ICLR. Proc。 ICLRの略。 0.60
Quang Do, Wei Lu, and Dan Roth. Quang Do、Wei Lu、Dan Roth。 0.65
2012. Joint inferIn Proc. 2012. 共同InferIn Proc。 0.77
of ence for event timeline construction. ですから イベントタイムライン構築のためのence。 0.57
EMNLP. Robert Geirhos, EMNLP。 ロバート・ガイロス 0.74
J¨orn-Henrik Jacobsen, Claudio Michaelis, Richard Zemel, Wieland Brendel, Matthias Bethge, and Felix A Wichmann. j・ソルン=ヘンリック・ヤコブセン、クラウディオ・ミカエリス、リチャード・ゼメル、ヴィーランド・ブレンデル、マティアス・ベスゲ、フェリックス・a・ウィッチマン。 0.31
2020. Shortcut learning in deep neural networks. 2020. ディープニューラルネットワークにおけるショートカット学習 0.80
Nature Machine Intelligence, 2(11):665–673. Nature Machine Intelligence, 2(11):665–673。 0.89
Mor Geva, Ankit Gupta, and Jonathan Berant. Mor Geva、Ankit Gupta、Jonathan Berant。 0.61
2020. Injecting numerical reasoning skills into language models. 2020. 言語モデルに数値推論スキルを注入する。 0.82
In Proc. of ACL. Proc。 ACLの略。 0.63
Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel Bowman, and Noah A Smith. 例えば、gururangan、swabha swayamdipta、omer levy、roy schwartz、samuel bowman、noah a smithである。 0.59
2018. Annotation artifacts in natural lanIn Proc. 2018. 自然なlanIn Procのアノテーションアーティファクト。 0.78
of NAACL, pages guage inference data. NAACLでは、ページガイド推論データ。 0.61
107–112. 107–112. 0.71
英語(論文から抽出)日本語訳スコア
Kenneth Kahn and G.Anthony Gorry. kenneth kahn と g.anthony gorry。 0.46
1977. Mechanizing temporal knowledge. 1977. 時間知識の機械化。 0.74
Artificial Intelligence, 9(1):87 – 108. 人工知能、9(1):87 - 108。 0.71
Z. Kozareva and E. Hovy. Z. KozarevaとE. Hovy。 0.86
2011. Learning temporal In 2011 IEEE information for states and events. 2011. 2011年、ieee information for state and events に参加。 0.75
Fifth International Conference on Semantic Computing, pages 424–429. 第5回セマンティックコンピューティング国際会議、424-429頁。 0.74
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut 0.69
2019. Albert: A lite bert for self-supervised learnarXiv preprint ing of language representations. 2019. albert: 言語表現の自己教師付きlearnerxivプレプリントイングのためのlite bert。 0.78
arXiv:1909.11942. 略称1909.11942。 0.31
Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, and Dan Roth. Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth 0.71
2020. TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions. 2020. torque: 時間順序付き質問の読み取り理解データセット。 0.75
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Qiang Ning, Hao Wu, Haoruo Peng, and Dan Roth. Qiang Ning, Hao Wu, Haoruo Peng, Dan Roth 0.66
2018b. Improving temporal relation extraction with a globally acquired statistical resource. 2018年。 グローバルに獲得した統計資源を用いた時間関係抽出の改善 0.64
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Takeshi Onishi, Hai Wang, Mohit Bansal, Kevin Gimpel, and David McAllester. タケシ・オニシ、ハイ・ワン、モヒット・バンサル、ケビン・ギンペル、デヴィッド・マクレスター。 0.33
2016. Who did what: A In Proc. 2016年は「a in proc」を開催。 0.54
large-scale person-centered cloze dataset. 大規模人中心のクローゼデータセット。 0.59
of EMNLP. J Richard Landis and Gary G Koch. EMNLPの略。 J・リチャード・ランディスとゲイリー・G・コッチ。 0.59
1977. The measurement of observer agreement for categorical data. 1977. 分類データのオブザーバ合意度の測定 0.72
biometrics, pages 159–174. バイオメトリックス、159-174頁。 0.53
James Pustejovsky. ジェームズ・プステジョフスキー。 0.66
2017. Iso-timeml and the annotation of temporal information. 2017. Iso-timemlと時間情報のアノテーション。 0.79
In Handbook of Linguistic Annotation, pages 941–968. Handbook of Linguistic Annotation』961-968頁。 0.78
Springer. Mirella Lapata and Alex Lascarides. Springer ミレラ・ラパタとアレックス・ラスカリデス。 0.51
2006. Learning sentence-internal temporal relations. 2006. 文内時間関係を学習する。 0.73
Journal of Artificial Intelligence Research, 27:85–117. Journal of Artificial Intelligence Research, 27:85-117。 0.77
Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew Peters, Ashish Sabharwal, and Yejin Choi. Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew Peters, Ashish Sabharwal, Yejin Choi 0.74
2020. Adversarial filters of dataset biases. 2020. データセットバイアスの逆フィルタ。 0.77
In Proc. of ICML, pages 1078–1088. Proc。 ICMLの1078-1088ページ。 0.67
PMLR. Kenton Lee, Yoav Artzi, Jesse Dodge, and Luke Zettlemoyer. PMLR。 Kenton Lee、Yoav Artzi、Jesse Dodge、Luke Zettlemoyer。 0.74
2014. Context-dependent semantic parsing for time expressions. 2014. 時間表現のための文脈依存意味解析。 0.73
In Proc. of ACL. Proc。 ACLの略。 0.63
Artuur Leeuwenberg and Marie Francine Moens. Artuur LeeuwenbergとMarie Francine Moens。 0.78
2018. Temporal information extraction by predicting relative time-lines. 2018. 相対時間線予測による時間情報抽出 0.80
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, and Shuzi Niu. Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, Shuzi Niu 0.68
2017. Dailydialog: A manually labelled multi-turn dialogue dataset. 2017. dailydialog: 手作業によるマルチターン対話データセット。 0.78
arXiv preprint arXiv:1710.03957. arXiv preprint arXiv:1710.03957 0.71
Bill Yuchen Lin, Seyeon Lee, Rahul Khanna, and Xiang Ren. Bill Yuchen Lin、Seyeon Lee、Rahul Khanna、Xiang Ren。 0.68
2020. Birds have four legs?! 2020. 鳥の足は4本? 0.77
NumerSense: Probing Numerical Commonsense Knowledge of Pre-Trained Language Models. NumerSense: 事前学習された言語モデルの数値コモンセンス知識の探索。 0.64
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Todor Mihaylov and Anette Frank. トドール・ミハイロフと アネット・フランク 0.52
2018. Knowledgeable reader: Enhancing cloze-style reading comprehension with external commonsense knowledge. 2018. knowledgeable reader: 外部コモンセンス知識によるclozeスタイルの読書理解の強化。 0.80
In Proc. of ACL. Proc。 ACLの略。 0.63
Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, and James Allen. Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, James Allen 0.73
2016. A corpus and cloze evaluation for deeper understanding of commonsense stories. 2016. 常識物語のより深い理解のためのコーパスとクローゼ評価 0.73
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Qiang Ning, Zhili Feng, Hao Wu, and Dan Roth. Qiang Ning、Zhili Feng、Hao Wu、Dan Roth。 0.69
2018a. Joint reasoning for temporal and causal relations. 2018年。 時間的・因果関係に関する共同推論 0.64
In Proc. of ACL. Proc。 ACLの略。 0.63
James Pustejovsky, Robert Knippen, Jessica Littman, and Roser Saur´ı. James Pustejovsky, Robert Knippen, Jessica Littman, Roser Saur ́ı。 0.85
2005. Temporal and event information in natural language text. 2005. 自然言語テキストにおける時間情報と事象情報 0.84
Language resources and evaluation, 39(2):123–164. 言語資源と評価,39(2):123–164。 0.84
Lianhui Qin, Antoine Bosselut, Ari Holtzman, Chandra Bhagavatula, Elizabeth Clark, and Yejin Choi. Lianhui Qin, Antoine Bosselut, Ari Holtzman, Chandra Bhagavatula, Elizabeth Clark, Yejin Choi 0.71
2019a. Counterfactual story reasoning and generation. 2019年。 実話の推論と生成。 0.67
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Lianhui Qin, Michel Galley, Chris Brockett, Xiaodong Liu, Xiang Gao, William B Dolan, Yejin Choi, and Jianfeng Gao. Lianhui Qin, Michel Galley, Chris Brockett, Xiaodong Liu, Xiang Gao, William B Dolan, Yejin Choi, Jianfeng Gao 0.74
2019b. Conversing by reading: Contentful neural conversation with on-demand machine reading. 2019年。 読み取りによる会話:オンデマンドマシン読み取りによるコンテントフルニューラルネットワーク会話。 0.67
In Proc. of ACL. Proc。 ACLの略。 0.63
Lianhui Qin, Vered Shwartz, Peter West, Chandra Bhagavatula, Jena D Hwang, Ronan Le Bras, Antoine Bosselut, and Yejin Choi. Lianhui Qin, Vered Shwartz, Peter West, Chandra Bhagavatula, Jena D Hwang, Ronan Le Bras, Antoine Bosselut, Yejin Choi 0.75
2020. Back to the future: Backpropagation-base d decoding for unsupervised counterfactual and abductive reasoning. 2020. back to the future: unsupervised counterfactual and abductive reasoningのためのバックプロパゲーションベースのデコード。 0.80
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Gabriel A Radvansky and Jeffrey M Zacks. Gabriel A RadvanskyとJeffrey M Zacks。 0.79
2014. Event cognition. 2014. イベント認知。 0.74
Oxford University Press. オックスフォード大学出版局。 0.75
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.92
2020. Exploring the limits of transfer learning with a unified text-totext transformer. 2020. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.83
Journal of Machine Learning Research, 21(140):1–67. Journal of Machine Learning Research, 21(140):1–67。 0.90
Andrea Setzer and Robert J Gaizauskas. アンドレア・セッツァーとロバート・J・ガイザウスカス。 0.56
2000. Annotating events and temporal information in newswire texts. 2000. ニュースワイヤテキストにおけるイベントと時間情報のアノテーション。 0.77
In Proc. of LREC. Proc。 LRECの略。 0.61
Wilson L Taylor. ウィルソン・l・テイラー 0.64
1953. “cloze procedure”: A new tool for measuring readability. 1953. クローズ手順”: 可読性を測定するための新しいツール。 0.83
Journalism quarterly, 30(4):415–433. ジャーナリズム・クォーターリー、30(4):415–433。 0.57
Naushad UzZaman, Hector Llorens, Leon Derczynski, James Allen, Marc Verhagen, and James Pustejovsky. Naushad UzZaman、Hector Llorens、Leon Derczynski、James Allen、Marc Verhagen、James Pustejovsky。 0.66
2013. SemEval-2013 task 1: TempEval-3: Evaluating time expressions, events, and temporal relations. 2013. SemEval-2013 Task 1: TempEval-3: 時間表現、イベント、時間関係の評価。 0.80
In Proc. of SemEval. Proc。 SemEvalの略。 0.63
英語(論文から抽出)日本語訳スコア
Siddharth Vashishtha, Adam Poliak, Yash Kumar Lal, Benjamin Van Durme, and Aaron Steven White. Siddharth Vashishtha、Adam Poliak、Yash Kumar Lal、Benjamin Van Durme、Aaron Steven White。 0.71
2020. Temporal reasoning in natural language inference. 2020. 自然言語推論における時間的推論 0.81
In Proc. of Findings of EMNLP. Proc。 EMNLPの発見について 0.59
Ben Zhou, Daniel Khashabi, Qiang Ning, and Dan Roth. Ben Zhou、Daniel Khashabi、Qiang Ning、Dan Roth。 0.72
2019. “going on a vacation” takes longer than “going for a walk”: A study of temporal commonsense understanding. 2019. 休暇に行く”には“散歩に行く”よりも長い時間が必要です。
訳抜け防止モード: 2019. to go on a vacation―go on a vacation 散歩に行く」よりも長い時間を要する : 時間的常識理解の研究
0.78
In Proc. of EMNLP. Proc。 EMNLPの略。 0.58
Xikun Zhang, Deepak Ramachandran, Ian Tenney, Yanai Elazar, and Dan Roth. Xikun Zhang, Deepak Ramachandran, Ian Tenney, Yanai Elazar, Dan Roth 0.69
2020. Do language emIn Proc. 2020. 言語emIn Proc。 0.74
of Findings of beddings capture scales? 寝具捕獲スケールの発見について 0.60
EMNLP. Ben Zhou, Qiang Ning, Daniel Khashabi, and Dan Roth. EMNLP。 Ben Zhou、Qiang Ning、Daniel Khashabi、Dan Roth。 0.73
2020. Temporal common sense acquisition with minimal supervision. 2020. 最小限の監督による時間的常識獲得。 0.67
In Proc. of ACL. Proc。 ACLの略。 0.63
英語(論文から抽出)日本語訳スコア
A Configurations We provide all model and training configurations used across our experiments: 構成 実験全体で使用されるすべてのモデルおよびトレーニング構成を提供します。 0.73
A.1 BERT Experiments for Classification and Mask-Filling A.1 BERTによる分類とマスクフィリング実験 0.72
• Model configuration for BERT-BASE classification and mask-filling: •BERT-BASE分類とマスク充填のためのモデル構成 0.67
attention_dropout_ra te: 0.1 dropout_rate: 0.1 hidden_activation: gelu hidden_size: 768 initializer_range: 0.02 intermediate_size: 3072 max_position_embeddi ngs: 512 num_attention_heads: 12 num_layers: 12 type_vocab_size: 2 vocab_size: 30522 attention_dropout_ra te: 0.1 dropout_rate: 0.1 hidden_activation: gelu hidden_size: 768 initializer_range: 0.02 intermediate_size: 3072 max_position_embeddi ngs: 512 num_attention_heads: 12 num_layers: 12 type_vocab_size: 2 vocab_size: 30522 0.57
• Model configuration for BERT-LARGE classification and mask-filling: •BERT-LARGE分類とマスク充填のためのモデル構成 0.67
attention_dropout_ra te: 0.1 dropout_rate: 0.1 hidden_activation: gelu hidden_size: 1024 initializer_range: 0.02 intermediate_size: 4096 max_position_embeddi ngs: 512 num_attention_heads: 16 num_layers: 24 type_vocab_size: 2 vocab_size: 30522 attention_dropout_ra te: 0.1 dropout_rate: 0.1 hidden_activation: gelu hidden_size: 1024 initializer_range: 0.02 intermediate_size: 4096 max_position_embeddi ngs: 512 num_attention_heads: 16 num_layers: 24 type_vocab_size: 2 vocab_size: 30522 0.57
• Training configuration for classification with BERT-BASE and in-domain data: •BERT-BASEとドメイン内データによる分類のためのトレーニング設定 0.67
num_classes: 2 train_data: num_classes: 2 train_data: 0.71
global_batch_size: 128 seq_length: 512 global_batch_size: 128 seq_length: 512 0.63
validation_data: Validation_data 0.73
global_batch_size: 32 seq_length: 512 global_batch_size: 32 seq_length: 512 0.63
trainer: max_to_keep: 3 checkpoint_interval: 1000 decay_steps: 30000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-5 power: 1.0 optimizer: adam warmup_steps: 5000 steps_per_loop: 1000 train_steps: 30000 validation_steps: 256 トレーナー: max_to_keep: 3 checkpoint_interval: 1000 decay_steps: 30000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-5 power: 1.0 optimizer: adam warmup_steps: 5000 steps_per_loop: 1000 train_steps: 30000 validation_steps: 256 0.61
• Training configuration for classification with BERT-LARGE and in-domain data: •BERT-LARGEおよびドメイン内データを用いた分類のためのトレーニング設定 0.60
num_classes: 2 train_data: num_classes: 2 train_data: 0.71
global_batch_size: 128 seq_length: 512 global_batch_size: 128 seq_length: 512 0.63
validation_data: Validation_data 0.73
global_batch_size: 32 seq_length: 512 global_batch_size: 32 seq_length: 512 0.63
trainer: max_to_keep: 3 トレーナー: max_to_keep: 3 0.61
英語(論文から抽出)日本語訳スコア
checkpoint_interval: 1000 decay_steps: 100000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 100000 validation_steps: 3000 checkpoint_interval: 1000 decay_steps: 100000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 100000 validation_steps: 3000 0.59
• Training configuration for classification with BERT-BASE and out-domain data: •BERT-BASEとアウトドメインデータによる分類のためのトレーニング設定 0.65
num_classes: 2 train_data: num_classes: 2 train_data: 0.71
global_batch_size: 128 seq_length: 512 global_batch_size: 128 seq_length: 512 0.63
validation_data: Validation_data 0.73
global_batch_size: 128 seq_length: 512 global_batch_size: 128 seq_length: 512 0.63
trainer: max_to_keep: 3 checkpoint_interval: 5000 decay_steps: 500000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 500000 validation_steps: 512 トレーナー: max_to_keep: 3 checkpoint_interval: 5000 decay_steps: 500000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 500000 validation_steps: 512 0.61
• Training configuration for classification with BERT-LARGE and out-domain data: • bert-largeおよびout-domainデータを用いた分類のトレーニング構成 0.63
num_classes: 2 train_data: num_classes: 2 train_data: 0.71
global_batch_size: 128 seq_length: 512 global_batch_size: 128 seq_length: 512 0.63
validation_data: Validation_data 0.73
global_batch_size: 128 seq_length: 512 global_batch_size: 128 seq_length: 512 0.63
trainer: max_to_keep: 3 checkpoint_interval: 5000 decay_steps: 500000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 500000 validation_steps: 512 トレーナー: max_to_keep: 3 checkpoint_interval: 5000 decay_steps: 500000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 500000 validation_steps: 512 0.61
• Training configuration for mask-filling with BERT-BASE and in-domain data: •BERT-BASEおよびドメイン内データによるマスク充填のトレーニング設定 0.69
train_data: train_data 0.76
global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 0.53
validation_data: Validation_data 0.73
global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 0.53
trainer: checkpoint_interval: 2000 max_to_keep: 30 トレーナー: checkpoint_interval: 2000 max_to_keep: 30 0.63
英語(論文から抽出)日本語訳スコア
decay_steps: 30000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-8 power: 1.0 optimizer: adam warmup_steps: 5000 steps_per_loop: 1000 train_steps: 30000 validation_interval: 1000 decay_steps: 30000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-8 power: 1.0 optimizer: adam warmup_steps: 5000 steps_per_loop: 1000 train_steps: 30000 validation_interval: 1000 0.58
• Training configuration for mask-filling with BERT-LARGE and in-domain data: •BERT-LARGEおよびドメイン内データによるマスク充填のトレーニング設定 0.67
train_data: train_data 0.76
global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 0.53
validation_data: Validation_data 0.73
global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 global_batch_size: 128 seq_length: 512 max_predictions_per_ seq: 20 0.53
trainer: checkpoint_interval: 2000 max_to_keep: 30 decay_steps: 30000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-8 power: 1.0 optimizer: adam warmup_steps: 5000 steps_per_loop: 1000 train_steps: 30000 validation_interval: 1000 トレーナー: checkpoint_interval: 2000 max_to_keep: 30 decay_steps: 30000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-8 power: 1.0 optimizationr: adam warmup_steps: 5000 steps_per_loop: 1000 train_steps: 30000 validation_interval: 1000 0.60
• Training configuration for mask-filling with BERT-BASE and out-domain data: •BERT-BASEおよび外部データによるマスク充填のトレーニング設定 0.66
train_data: train_data 0.76
global_batch_size: 512 seq_length: 512 global_batch_size: 512 seq_length: 512 0.63
validation_data: Validation_data 0.73
global_batch_size: 512 seq_length: 512 global_batch_size: 512 seq_length: 512 0.63
trainer: checkpoint_interval: 5000 max_to_keep: 10 decay_steps: 300000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 300000 validation_steps: 1000 トレーナー: checkpoint_interval: 5000 max_to_keep: 10 decay_steps: 300000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 300000 validation_steps: 1000 0.61
• Training configuration for mask-filling with BERT-LARGE and out-domain data: •BERT-LARGEおよび外部データによるマスク充填のトレーニング設定 0.63
train_data: train_data 0.76
global_batch_size: 512 seq_length: 512 global_batch_size: 512 seq_length: 512 0.63
validation_data: Validation_data 0.73
global_batch_size: 512 seq_length: 512 global_batch_size: 512 seq_length: 512 0.63
trainer: checkpoint_interval: 5000 max_to_keep: 10 decay_steps: 300000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 トレーナー: checkpoint_interval: 5000 max_to_keep: 10 decay_steps: 300000 end_learning_rate: 0.0 initial_learning_rat e: 1.0e-6 0.56
英語(論文から抽出)日本語訳スコア
power: 1.0 optimizer: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 300000 validation_steps: 1000 power: 1.0 Optimizationr: adam warmup_steps: 10000 steps_per_loop: 1000 train_steps: 300000 validation_steps: 1000 0.71
A.2 T5 Experiments for Generation a.2 t5 生成実験 0.78
• The training configuration for generation with T5-BASE and in-domain data: • t5-baseとドメイン内データによる生成のためのトレーニング構成: 0.73
encoder_seq_length: 512 decoder_max_length: 128 train_batch_size: 128 max_train_steps: 100000 valid_batch_size: 128 dropout_rate: 0.2 optimizer: adam learning_rate: 1.0e-6 encoder_seq_length: 512 decoder_max_length: 18 train_batch_size: 128 max_train_steps: 100000 valid_batch_size: 128 dropout_rate: 0.2 optimizer: adam learning_rate: 1.0e-6 0.52
• The training configurations for generation with T5-BASE/LARGE and in-domain/out-domain data are similar as above, except that the learning rate is set to 5.0e-6 for T5-LARGE in-domain data, 5.0e-4 for T5-BASE out-domain data, and 1.0e-4 for T5-LARGE out-domain data. • t5-base/largeおよびin-domain/out-domain データ生成のトレーニング構成は、t5-large in-domainデータでは5.e-6、t5-base out-domainデータでは5.e-4、t5-large out-domainデータでは1.0e-4に設定されている。 0.53
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。