論文の概要、ライセンス

# (参考訳) FETA: オープンドメイン対話におけるFew-Sampleタスク転送のベンチマーク [全文訳有]

FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue ( http://arxiv.org/abs/2205.06262v1 )

ライセンス: CC BY-SA 4.0
Alon Albalak, Yi-Lin Tuan, Pegah Jandaghi, Connor Pryor, Luke Yoffe, Deepak Ramachandran, Lise Getoor, Jay Pujara, William Yang Wang(参考訳) タスク転送は、関連するタスクに含まれる知識を転送し、言語モデルの微調整に必要なラベル付きデータの量を減らすことを約束する。 対話理解は多くの多様なタスクを含んでいるが、タスク転送は会話型AIでは十分に研究されていない。 オープンドメイン対話における少数タスク転送のベンチマークであるfetaを導入することで、会話的タスク転送を探求する。 fetaには10と7のタスクが注釈付けされた2つの会話セットが含まれており、データ内タスク転送の研究を可能にする。 3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析し、将来の作業のベースラインを作成する。 例えば、ほとんどのパフォーマンストレンドはモデル固有であり、スパン抽出と複数選択タスクはタスク転送から最も恩恵を受けます。 タスクの転送に加えて、fetaは、データセットとモデルアーキテクチャの事前トレーニングの効率と汎用性、および連続学習やマルチタスク学習のような学習設定に関する将来の研究にとって貴重なリソースとなる。

Task transfer, transferring knowledge contained in related tasks, holds the promise of reducing the quantity of labeled data required to fine-tune language models. Dialogue understanding encompasses many diverse tasks, yet task transfer has not been thoroughly studied in conversational AI. This work explores conversational task transfer by introducing FETA: a benchmark for few-sample task transfer in open-domain dialogue. FETA contains two underlying sets of conversations upon which there are 10 and 7 tasks annotated, enabling the study of intra-dataset task transfer; task transfer without domain adaptation. We utilize three popular language models and three learning algorithms to analyze the transferability between 132 source-target task pairs and create a baseline for future work. We run experiments in the single- and multi-source settings and report valuable findings, e.g., most performance trends are model-specific, and span extraction and multiple-choice tasks benefit the most from task transfer. In addition to task transfer, FETA can be a valuable resource for future research into the efficiency and generalizability of pre-training datasets and model architectures, as well as for learning settings such as continual and multitask learning.
公開日: Thu, 12 May 2022 17:59:00 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
FETA: A Benchmark for Few-Sample Task Transfer FETA: Few-Sample Task Transferのベンチマーク 0.83
in Open-Domain Dialogue Open-Domain 対話で 0.65
Yi-Lin Tuan1 Pegah Jandaghi2 Connor Pryor3 Luke Yoffe1 Yi-Lin Tuan1 Pegah Jandaghi2 Connor Pryor3 Luke Yoffe1 0.35
Alon Albalak1 Deepak Ramachandran4 Lise Getoor3 1University of California, Santa Barbara アロンアルバラク1 deepak ramachandran4 lise getoor3 カリフォルニア大学サンタバーバラ校 0.63
Jay Pujara2 William Yang Wang1 2University of Southern California ジェイ・プジャラ2 ウィリアム・ヤン・ワング1 南カリフォルニア大学 0.61
3University of California, Santa Cruz カリフォルニア大学サンタクルーズ校3大学 0.68
4Google Research 4Googleリサーチ 0.82
alon_albalak@ucsb.ed u alon_albalak@ucsb.ed u 0.29
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] L C . s c [ 1 v 2 6 2 6 0 ]LC。 sc [ 1 v 2 6 2 6 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Task transfer, transferring knowledge contained in related tasks, holds the promise of reducing the quantity of labeled data required to fine-tune language models. 抽象タスク転送(abstract task transfer)は、関連するタスクに含まれる知識を転送し、言語モデルの微調整に必要なラベル付きデータの量を減らすことを約束する。 0.65
Dialogue understanding encompasses many diverse tasks, yet task transfer has not been thoroughly studied in conversational AI. 対話理解は多くの多様なタスクを含んでいるが、タスク転送は会話型AIでは十分に研究されていない。 0.57
This work explores conversational task transfer by introducing FETA: a benchmark for FEw-sample TAsk transfer in open-domain dialogue. 本研究では、オープンドメイン対話におけるFEw-sample TAsk転送のベンチマークであるFETAを導入することにより、対話型タスク転送を検討する。
訳抜け防止モード: この研究は会話によるタスク伝達を探求する FETAの導入 FEw - オープンドメイン対話におけるサンプルTAsk転送のベンチマーク。
0.67
FETA contains two underlying sets of conversations upon which there are 10 and 7 tasks annotated, enabling the study of intra-dataset task transfer; task transfer without domain adaptation. fetaには10と7のタスクが注釈付けされた2つの会話セットが含まれており、データ内タスク転送の研究を可能にする。
訳抜け防止モード: FETAには10タスクと7タスクがアノテートされた2つの基本的な会話が含まれている。 データセット内タスク転送の研究を可能にする。
0.68
We utilize three popular language models and three learning algorithms to analyze the transferability between 132 source-target task pairs and create a baseline for future work. 3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析し、将来の作業のベースラインを作成する。 0.68
We run experiments in the single- and multi-source settings and report valuable findings, e g , most performance trends are model-specific, and span extraction and multiple-choice tasks benefit the most from task transfer. 例えば、ほとんどのパフォーマンストレンドはモデル固有であり、抽出と複数選択タスクはタスク転送から最も恩恵を受けます。
訳抜け防止モード: 単一および複数ソース設定で実験を実行する 例えば、ほとんどのパフォーマンストレンドはモデル固有のものです。 そして、抽出と多重選択タスクは、タスク転送から最も恩恵を受けます。
0.70
In addition to task transfer, FETA can be a valuable resource for future research into the efficiency and generalizability of pre-training datasets and model architectures, as well as for learning settings such as continual and multitask learning. タスクの転送に加えて、fetaは、データセットとモデルアーキテクチャの事前トレーニングの効率と汎用性、および連続学習やマルチタスク学習のような学習設定に関する将来の研究にとって貴重なリソースとなる。 0.77
1 Introduction 1 Improving sample efficiency through transfer learning has been a long-standing challenge in the machine learning and natural language processing communities (Pratt et al , 1991; Ando and Zhang, 2005). はじめに 1 トランスファー学習によるサンプル効率の向上は、機械学習と自然言語処理コミュニティにおいて長年の課題となっている(pratt et al , 1991; ando and zhang, 2005)。 0.72
Dialogue data requires multiple cohesive turns with consistent speaker personalities (Urbanek et al , 2019; Huang et al , 2020), creating a challenge for data collection and motivating the development of techniques that improve sample efficiency in conversational AI (Lin et al , 2020). 対話データには、一貫した話者のパーソナリティー(urbanek et al , 2019; huang et al , 2020)と複数の結束的なターンが必要であり、データ収集の課題を作り、会話型ai(lin et al , 2020)のサンプル効率を改善する技術の開発を動機付ける。
訳抜け防止モード: 対話データは、一貫した話者パーソナリティ(Urbanek et al)を持つ複数の凝集ターンを必要とする。 2019年; Huangら、2020年 - データ収集に挑戦 技術の発展を動機づけ 会話型AI(Lin et al, 2020)のサンプル効率を改善する。
0.81
1All code and data for FETA are available through the Transfer Learning in Dialogue Benchmarking Toolkit (Albalak, 2022) at github.com/alon-alba lak/TLiDB. FETAのすべてのコードとデータは、github.com/alon-alba lak/TLiDBのTransfer Learning in Dialogue Benchmarking Toolkit (Albalak, 2022)を通じて入手できる。 0.67
Figure 1: Task Transfer Performance on FETADailyDialog. 図1: FETADailyDialogでのタスク転送のパフォーマンス。 0.79
Computed transfer performance is demonstrated by arrows leaving from source tasks and entering target tasks. 演算転送性能は、元タスクから離れ、ターゲットタスクに入る矢印によって実証される。 0.61
Strength of the transfer is denoted by thickness and color of edges. 転送の強さは、エッジの厚さと色によって示される。 0.72
Furthermore, dialogue understanding tasks require a shared knowledge of semantics, pragmatics, human behavior, and commonsense, making dialogue an area of study that can benefit greatly from a deeper understanding of transfer learning. さらに、対話理解タスクは意味論、実践学、人間の行動、常識の共通知識を必要とし、対話は転帰学習の深い理解から大きな恩恵を受けることができる研究領域となる。 0.72
Two essential transfer learning settings, namely domain adaptation and task transfer, have been studied on language tasks (Ruder et al , 2019). ドメイン適応とタスク転送という2つの重要なトランスファー学習設定が言語タスクについて研究されている(ruder et al , 2019)。 0.70
While domain adaptation has been studied in taskoriented dialogue (Mehri et al , 2020) , task transfer has been studied with less rigor in conversational AI. タスク指向対話(Mehri et al , 2020)ではドメイン適応が研究されているが、会話型AIではより厳密なタスク転送が研究されている。 0.62
Prior studies of task transfer in dialogue consider only 2-4 tasks, focus on multitask learning, and do not compare learning algorithms (HosseiniAsl et al , 2020; Peng et al , 2021b). 対話におけるタスク伝達の先行研究は、2-4タスクのみを考慮し、マルチタスク学習に焦点を当て、学習アルゴリズムを比較しない(HosseiniAsl et al , 2020; Peng et al , 2021b)。 0.73
Prior studies have focused on cross-dataset task transfer, gathering tasks annotated on disjoint datasets (Vu et al , 2020; Ye et al , 2021), but this can lead to improvements in domain adaptation being confounded as improvements in task transfer. 以前の研究は、データセット間のタスク転送、非結合データセットに注釈付けされたタスクの収集(Vu et al , 2020; Ye et al , 2021)に重点を置いていたが、これはタスク転送の改善としてまとめられたドメイン適応の改善につながる可能性がある。 0.63
A precise study of task transfer should be on a sin- タスク転送の正確な研究は、罪にあるべき- 0.82
英語(論文から抽出)日本語訳スコア
gle data source in an intra-dataset transfer setting, as in Zamir et al (2018). zamir et al (2018)のように、データセット内転送設定におけるgleデータソース。 0.67
Additionally, previous studies focus on learning algorithms and use only a single language model architecture (Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022), which may lead to a narrow understanding. さらに、以前の研究では、学習アルゴリズムに焦点をあて、単一の言語モデルアーキテクチャ(Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022)のみを使用し、より狭い理解につながる可能性がある。 0.81
To the best of our knowledge, this is the first rigorous study on task transfer in dialogue and the most extensive intra-dataset task transfer study in NLP. 我々の知る限りでは、対話におけるタスク転送に関する最初の厳密な研究であり、NLPにおける最も広範なデータセット内タスク転送研究である。 0.72
In this work, we create FETA, a benchmark for few-sample task transfer for language understanding in open-domain dialogue with 17 total tasks. 本研究では17のタスクを含むオープンドメイン対話における言語理解のための少数サンプルタスク転送のためのベンチマークであるFETAを作成する。 0.65
FETA datasets cover a variety of properties (dyadic vs. multi-party, anonymized vs. recurring speaker, varying dialogue lengths) and task types (utterance-level classification, dialogue-level classification, span extraction, multiple-choice), and maintain a wide variety of data quantities. fetaデータセットは、さまざまな特性(dyadic vs. multiparty, anonymized vs. recurring speaker, various dialogue lengths)とタスクタイプ(発話レベル分類、対話レベル分類、スパン抽出、マルチチョイス)をカバーし、さまざまなデータ量を維持する。 0.79
We study task transfer on FETA by comparing three task transfer algorithms and three commonly used language models in single-source and multisource settings. 3つのタスク転送アルゴリズムと3つの共通言語モデルを比較し,FETA上のタスク転送について検討した。 0.75
Figure 1 illustrates some results in the single-source setting. 図1は、単一ソース設定でいくつかの結果を示しています。 0.54
For example, we find that Dialogue Reasoning Span Extraction benefits from nearly all source tasks. 例えば、ダイアログ推論スパン抽出は、ほぼすべてのソースタスクから恩恵を受けています。 0.61
On the other hand, Adversarial Response Selection and Emotion Recognition improve the performance of many target tasks when utilized as a source task. 一方,逆応答選択と感情認識は,ソースタスクとして使用する場合,多くの目標タスクのパフォーマンスを向上させる。 0.84
In this study, we find that: この研究でわかったのは 0.55
(i) Trends are largely model-dependent, a finding that previous works have not discussed. (i)傾向は主にモデルに依存しており、以前の研究が議論されていないこと。 0.66
(ii) Out of all task types, span extraction tasks gain the most as a target, especially with few samples. (ii)全てのタスクタイプのうち、抽出タスクがターゲットとして最も多くなり、特にサンプルが少ない。 0.71
(iii) Adding source tasks does not uniformly improve over a single source task, motivating a better understanding of the complex relationship between source and target tasks. (iii) ソースタスクの追加は、単一のソースタスクよりも一様に改善されず、ソースタスクとターゲットタスクの複雑な関係をよりよく理解する動機となる。 0.75
FETA provides a resource for various future studies, e g , on the generalizability of model architectures, and pre-training datasets that enable efficient transfer. FETAは、モデルアーキテクチャの一般化可能性や効率的な転送を可能にする事前学習データセットに関する、様々な将来の研究のためのリソースを提供する。 0.67
In addition to task transfer, FETA can also facilitate the study of continual and multitask learning. タスクの転送に加えて、fetaは連続的およびマルチタスク学習の研究も促進できる。 0.70
In summary, our main contributions are: • We create the first large-scale benchmark for task transfer in dialogue, with 132 sourcetarget task pairs. 主なコントリビューションは以下のとおりである。• 対話におけるタスク転送のための最初の大規模ベンチマークを132のソースターゲットタスクペアで作成する。 0.71
• Extensive experimentation on FETA in both the single-source and multi-source settings, and an in-depth analysis comparing models, learning algorithms, sample sizes, and task types, finding new and non-intuitive results. • 単一ソースと複数ソースの両方でFETAを徹底的に実験し, モデル, 学習アルゴリズム, サンプルサイズ, タスクタイプを比較し, 新規および非直感的な結果を求める。 0.86
• A readily extensible transfer learning framework that allows for rapid experimentation and an online leaderboard to encourage deeper research into task transfer. • 簡単に拡張可能な転送学習フレームワークで、迅速な実験とオンラインリーダーボードにより、タスク転送に関するより深い研究が促進されます。 0.75
2 Related Work Transfer Learning in NLP Prior works on transfer learning in NLP have studied a wide variety of topics, including domain adaptation (Ben-David et al , 2010), multitask learning (Collobert and Weston, 2008; Bingel and Søgaard, 2017), and learning representations of words (Brown et al , 1992; Mikolov et al , 2013; Peters et al , 2017, 2018). 2 関連作業 NLPにおけるトランスファーラーニング (Transfer Learning in NLP) では、ドメイン適応 (Ben-David et al , 2010)、マルチタスク学習 (Collobert and Weston, 2008; Bingel and Søgaard, 2017)、単語の学習表現 (Brown et al , 1992; Mikolov et al , 2013; Peters et al , 2017) など、さまざまなトピックが研究されている。 0.79
More recently, DialoGLUE (Mehri et al , 2020) and RADDLE (Peng et al , 2021a) study domain adaptation for language understanding tasks in taskoriented dialogue. 最近では、DialoGLUE(Mehri et al , 2020)とRADDLE(Peng et al , 2021a)が、タスク指向対話における言語理解タスクのドメイン適応を研究している。
訳抜け防止モード: 最近, DialoGLUE (Mehri et al, 2020) RADDLE (Peng et al, 2021a ) はタスク指向対話における言語理解タスクのドメイン適応について検討した。
0.78
Shuster et al (2020) focuses on multitasking in dialogue response generation across multiple datasets. Shuster et al (2020)は、複数のデータセットにわたる対話応答生成におけるマルチタスクに焦点を当てている。 0.59
Similar to this work, Pruksachatkun et al (2020) study task transfer, although they study cross-dataset task transfer in general NLP tasks. この研究と同様に、Pruksachatkun et al (2020)は、一般的なNLPタスクにおいて、クロスデータセットタスク転送を研究するが、タスク転送を研究する。 0.61
Lourie et al (2021) also study task transfer, but they focus on the T5 model and a suite of commonsenseQA datasets. Lourie et al (2021)もタスク転送を研究しているが、T5モデルとCommonsenseQAデータセットのスイートに焦点を当てている。 0.67
Task Transfer in Dialogue Task transfer has been applied in Task-Oriented Dialogue (TOD) settings but never rigorously studied. タスク転送のタスク転送はタスク指向対話(tod)の設定に適用されるが、厳密には研究されていない。
訳抜け防止モード: 対話タスク転送におけるタスク転送がタスク指向対話(TOD)設定に適用された でも 厳格に勉強するなんて。
0.63
For example, Hosseini-Asl et al (2020) and Lin et al (2020) develop multitask models to perform 2-4 TOD tasks but do not aim to analyze the efficiency of models or learning algorithms for task transfer. 例えば、hosseini-asl et al (2020) と lin et al (2020) は 2-4 tod タスクを実行するマルチタスクモデルを開発しているが、タスク転送のためのモデルや学習アルゴリズムの効率を分析することを意図していない。 0.73
Intra-dataset Task Transfer Intra-dataset task transfer has been studied in computer vision applications (Zamir et al , 2018; Pal and Balasubramanian, 2019), but to our best knowledge it has never been studied in NLP. データベース内タスク転送 タスク転送はコンピュータビジョンアプリケーション(Zamir et al , 2018, Pal and Balasubramanian, 2019)で研究されているが、我々の知る限り、NLPでは研究されていない。 0.64
3 FETA In this section, we briefly define intra-dataset task transfer, the problem setting of FETA. 3FETA 本稿では,FETAの課題設定である,データセット内タスク転送を簡潔に定義する。 0.53
Then, we introduce FETA, our benchmark for few-sample task transfer in open-domain dialogue. 次に、オープンドメイン対話における少数サンプルタスク転送のためのベンチマークであるFETAを紹介する。 0.57
Finally, we define the metrics we use to evaluate models and learning algorithms on FETA. 最後に、FETA上でモデルと学習アルゴリズムを評価するために使用するメトリクスを定義します。 0.74
3.1 Problem Definitions Let a dataset be composed of the instance set, X, and n task-specific label sets Y1, Y2, . . . , Yn. 3.1 問題定義 データセットをインスタンスセット、X、およびnタスク固有のラベルセットY1, Y2, . . . , Yn から構成する。 0.84
In FETA, each instance x ∈ X is a dialogue. FETA では、各インスタンス x ∈ X は対話である。 0.79
英語(論文から抽出)日本語訳スコア
Task Name Emotion Recognition Dialogue Act Classification Topic Classification Causal Emotion Span Extraction Causal Emotion Entailment Dialogue-Level NLI Dialogue Reasoning Span Extraction Dialogue Reasoning Multiple Choice Commonsense Relation Extraction Adversarial Response Selection Emotion Recognition (EmoryNLP) Reading Comprehension Character Identification Question Answering Personality Detection Relation Extraction Emotion Recognition (MELD) タスク名感情認識行動分類 トピック分類 因果感情スパン抽出 因果感情を含むnli対話推論 スパン抽出対話推論 複数選択コモンセンス抽出 敵意応答選択感情認識(emorynlp) 理解力のある文字識別 人格検出 関係抽出感情認識(meld) 0.69
g o l a i D y l i a D g o l a i D y l i a D 0.43
s d n e i r F s d n e i r F 0.43
Original Samples 102978 102978 13118 36324 36324 5817 1098 2165 4009 57145 12606 13865 50247 12257 711 7636 9140 原本 102978 102978 13118 36324 36324 5817 1098 2165 4009 57145 12606 13865 50247 12257 711 7636 9140 0.28
FETA Samples Train 7230 7230 958 2141 2141 569 123 224 350 3400 844 912 3593 819 54 519 616 FETAサンプル Train 7230 7230 958 2141 2141 569 123 224 350 3400 844 912 3593 819 54 519 616 0.62
Dev 1269 1269 161 169 169 52 13 26 38 895 207 181 638 191 15 121 148 Dev 1269 1269 161 169 169 52 13 26 38 895 207 181 638 191 15 121 148 0.42
Test Task Metrics Type M/m-F1 15885 Utt Cls 15885 Utt Cls M/m-F1 1919 Dial Cls M/m-F1 9133 T-F1,EM 9133 Dial Cls M-F1,Acc 1302 Dial Cls M-F1,Acc 244 T-F1,EM 496 Mult Ch Acc 851 Dial Cl. テスト Task Metrics Type M/m-F1 15885 Utt Cls 15885 Utt Cls M/m-F1 1919 Dial Cls M/m-F1 9133 T-F1,EM 9133 Dial Cls M-F1,Acc 1302 Dial Cls M-F1,Acc 244 T-F1,EM 496 Mult Ch Acc 851 Dial Cl。 0.56
M-F1,Acc Span Ex M-F1,Acc スパンex 0.39
Span Ex m/W-F1 スパンex m/W-F1 0.30
10750 Mult Ch Acc 1912 Utt Cls 2284 Mult Ch Acc 7803 Utt Cls M/m-F1 1937 Span Ex T-F1,EM 110 Dial Cls Acc 1188 Dial Cls m-F1 1247 Utt Cls 10750 Mult Ch Acc 1912 Utt Cls 2284 Mult Ch Acc 7803 Utt Cls M/m-F1 1937 Span Ex T-F1,EM 110 Dial Cls Acc 1188 Dial Cls m-F1 1247 Utt Cls 0.44
m/W-F1 Table 1: Overview of FETA tasks. m/W-F1 表1: FETAタスクの概要。 0.44
Task types are abbreviated as follows: Utt Cls for utterance-level classification, Dial Cls for dialogue-level classification, Span Ex for span extraction, and Mult Ch for multiple choice. タスクタイプは、発話レベル分類のためのutt cls、対話レベル分類のためのダイヤルcls、スパン抽出のためのspan ex、複数選択のためのmult chである。 0.67
Metrics are abbreviated as follows: M-F1 for macro-F1, m-F1 for micro-F1, T-F1 for token-F1, W-F1 for weighted-F1, EM for exact match and Acc for accuracy. M-F1はマクロF1、m-F1はマイクロF1、T-F1はトークンF1、W-F1は重み付けF1、EMは正確な一致、Accは正確である。 0.59
Definition 1 (Domain and Task). 定義1(ドメインとタスク)。 0.66
A domain D = {X , P(X)} consists of a feature space X and a marginal probability distribution P(X). ドメインd = X , P(X)} は特徴空間 X と辺確率分布 P(X) からなる。
訳抜け防止モード: ドメインd = { X, P(X ) } は特徴空間 X からなる そして、限界確率分布 P(X) である。
0.67
The X ={x1, x2, . . . , xn} ∈ X . X ={x1, x2, . , xn} ∈ X である。 0.86
A task T ={Y, f(X)} is composed of a label タスク T ={Y, f(X)} はラベルからなる 0.64
marginal probabilities are over the instance set 限界確率はインスタンスセットを越えています 0.60
space Y and a predictive function, f ࢼ X → Y. Definition 2 (Learning Algorithm). 空間 Y と予測関数 f > X → Y. 定義 2 (学習アルゴリズム)。 0.70
A learning algorithm, A, is a protocol that determines the method by which the instance set X and taskspecific label sets Y1, Y2, . . . , Yn will be used to train a predictive function, f. 学習アルゴリズムAは、インスタンスセットXとタスク固有のラベルセットY1,Y2,...、Ynが予測関数fのトレーニングに使用される方法を決定するプロトコルである。
訳抜け防止モード: 学習アルゴリズムAは、インスタンスセットXとタスク固有のラベルセットY1の方法を決定するプロトコルである。 Y2 , . . . , Yn は予測関数 , f のトレーニングに使用される。
0.76
Definition 3 (Task Transfer). 定義3(タスク転送)。 0.68
Given a source source (複数形 sources) 0.50
task TS = {YS, fS(XS)} and target task TT = {YT , fT(XT)}, task transfer is the use of a learnXT , we also have P(XS) ≠ P(XT) and DS ≠ タスク ts = {ys, fs(xs)} と対象タスク tt = {yt , ft(xt)} 、タスク転送は learnxt の使用であり、p(xs) は p(xt) と ds も持つ。
訳抜け防止モード: Task TS = { YS, fS(XS ) } およびターゲットタスク TT = { YT, fT(XT ) }, タスク転送は learnXT の使用です。 また P(XS ) > P(XT ) と DS > も有る。
0.76
ing algorithm, A, to improve the learning of fT by using the knowledge in TS. ingアルゴリズムAは、TSの知識を用いてfTの学習を改善する。 0.68
In cross-dataset task transfer, when XS ≠ クロスデータセットのタスク転送では、XS > 0.64
DT ; domain shift. DT; ドメインシフト。 0.68
In intra-dataset task transfer, when XS = XT , there is no domain shift. データセット内タスク転送では、XS = XT の場合、ドメインシフトはない。 0.79
This enables the study of the learning algorithm’s performance on task transfer, isolated from domain adaptation. これにより、ドメイン適応から分離したタスク転送における学習アルゴリズムのパフォーマンスの研究が可能になる。 0.80
We refer the reader to Pan and Yang (2010) and Zhuang et al (2021) for expanded discussions on transfer learning definitions. 翻訳学習定義に関する議論を拡大するために、Pan and Yang (2010) と Zhuang et al (2021) の読者を参照する。 0.76
Few-Sample Due to the challenge and cost of collecting and annotating data, many real-world applications of NLP techniques are limited by data データの収集と注釈付けの難しさとコストのため、NLP技術の現実的な応用の多くはデータによって制限されている。
訳抜け防止モード: 少ない - 挑戦とコストによるサンプル データの収集と注釈 NLP技術の多くの実世界応用はデータによって制限される
0.83
quantities. For this reason, we focus on the fewsample setting, defined in FETA as 10% of the original instance set. 量だ このため、我々は、FETAで定義されているスプリットサンプル設定を、元のインスタンスセットの10%としてフォーカスする。 0.61
Out of 10%, 5%, and 1%, 10% was empirically determined to be the smallest percentage that retains labels from all label sets in both the train and development partitions. 10%、5%、1%のうち、10%は、列車と開発の両方における全てのラベルセットのラベルを保持する最小の割合であると実証的に決定された。
訳抜け防止モード: 10 %, 5 %, 1 % であった。 10%が経験的に判断され 列車分割と開発分割の両方において、すべてのラベルセットのラベルを保持する最小の割合である。
0.75
Given the recent attention focused on NLP applications in low-resource settings (Brown et al , 2020; Bansal et al , 2020; Mukherjee et al , 2021; Ye et al , 2021), we expect research done in such a low-data setting will lead to insights useful for many researchers and practitioners. 低リソース環境でのnlpアプリケーション(brown et al , 2020; bansal et al , 2020; mukherjee et al , 2021; ye et al , 2021)に注目した最近の注目を考えると、このような低データ環境での研究は、多くの研究者や実践者にとって有用な洞察をもたらすだろう。 0.80
3.2 FETA Datasets In this section, we describe the two dialogue sources we use, DailyDialog (Li et al , 2017) and Friends (Chen and Choi, 2016), and the tasks annotated on each source. 3.2 FETAデータセット この節では、DailyDialog(Li et al , 2017)とFriends(Chen and Choi, 2016)の2つの対話ソースと、各ソースに注釈付けされたタスクについて説明する。 0.74
We select these datasets because they complement each other in desirable ways. 望ましい方法で相互に補完するため、これらのデータセットを選択します。 0.59
DailyDialog contains 2-speaker dialogues where speakers are anonymized and averages 88 words per dialogue. DailyDialogには2つの話者対話があり、話者は匿名化され、対話平均88語である。 0.55
In contrast, Friends consists of multiparty dialogues (3.6 speakers mean, 15 max) with recurring characters and averages 283 words per dialogue. 対照的に、友人は多人数対話(3.6話者平均、15マックス)で、反復的なキャラクターと平均283単語からなる。 0.66
These differences lead to each set of dialogue instances having different task annotations, giving FETA a wider variety of tasks. これらの違いは、それぞれのダイアログインスタンスが異なるタスクアノテーションを持つようになり、FETAはより幅広いタスクを提供する。 0.68
For example, DailyDialog tasks include understanding the causes of emotions and commonsense reasoning, while tasks annotated on Friends revolve more around recognizing entities and understanding personalities. 例えば、DailyDialogタスクは感情や常識的推論の原因を理解することを含み、Friendsにアノテートされたタスクは、エンティティを認識し、パーソナリティを理解することに関してより進化する。
訳抜け防止モード: たとえばDailyDialogタスクには 感情や常識的推論の原因を理解すること 一方、フレンドに注釈を付けたタスクは、エンティティの認識とパーソナリティの理解をより深めている。
0.61
英語(論文から抽出)日本語訳スコア
Figure 2: Example dialogues and tasks for FETA-DailyDialog (top) and FETA-Friends (bottom). 図2: FETA-DailyDialog (top) と FETA-Friends (bottom) の対話とタスクの例。 0.82
To create FETA versions of each dataset, we first partition the dialogues into 70/15/15% splits for training, validation, and test sets. 各データセットのFETAバージョンを作成するために、まず、トレーニング、検証、テストセットのために、対話を70/15/15%の分割に分割します。 0.59
After splitting, we randomly down-sample the train and development dialogues to 10% of the original quantities. 分割後、列車と開発ダイアログをランダムに、元の量の10%にダウンサンプリングします。 0.72
Thus, FETA splits use 7/1.5/15% of the original dialogues. したがって、FETA分割は元の対話の7/1.5/15%を使用する。 0.52
Not every dialogue is annotated for all tasks, allowing some tasks to have more samples than others. すべての対話がすべてのタスクに注釈付けされているわけではない。 0.53
Crucially, the data splits are the same for all tasks, preventing data leakage. 重要なのは、データ分割がすべてのタスクで同じであり、データの漏洩を防止することだ。 0.61
Table 1 shows an overview of the tasks, samples, and metrics used for each dataset. 表1は、各データセットで使用されるタスク、サンプル、メトリクスの概要を示しています。 0.77
FETA-DailyDialog Li et al (2017) present the DailyDialog dataset, with chit-chat conversations covering 10 various topics including relationships, politics, and work. FETA-DailyDialog Li et al (2017)では、DailyDialogデータセットが紹介されている。
訳抜け防止モード: FETA - DailyDialog Li et al (2017 )はDailyDialogデータセットを提示する。 チャットは、関係、政治、仕事など10のトピックをカバーする。
0.72
Many works add annotations on top of these dialogues and FETA utilizes 10 of them. 多くの作品がこれらの対話の上にアノテーションを追加し、fetaは10の対話を活用している。 0.47
Figure 2 provides an overview of the tasks: emotion recognition, dialogue act classification, topic classification (from DailyDialog (Li et al , 2017)), causal emotion span extraction, causal emotion entailment (from RECCON (Poria et al , 2021)), dialoguelevel natural language inference, dialogue reasoning span extraction, dialogue reasoning multiple choice, commonsense relation extraction (from CIDER (Ghosal et al , 2021)) adversarial response selection (from DailyDialog++ (Sai et al , 2020)). 図2は、感情認識、対話行動分類、トピック分類(DailyDialog (Li et al , 2017))、因果感情の抽出、因果感情の包含(RECCON (Poria et al , 2021))、対話レベルの自然言語推論、対話推論スパン抽出、対話推論、複数選択、共通意味関係抽出(CIDER (Ghosal et al , 2021))、反対応答選択(DailyDialog++ (Sai et al , 2020)といったタスクの概要を提供する。 0.74
For further details of these tasks, we refer the reader to Appendix A and their original papers. これらのタスクの詳細については、読者にappendix aとそのオリジナルの論文を参照する。 0.67
FETA-Friends The Friends dialogues come from transcripts of 10 seasons of the TV show by the same name (Chen and Choi, 2016). FETA-Friends 友人同士の対話は同名のテレビ番組の10シーズンの書き起こしから来ている(Chen and Choi, 2016)。 0.80
In addition to dialogue, the transcripts contain situational information such as behaviors and non-verbal information like scene information. 対話に加えて、文章には行動などの状況情報やシーン情報のような非言語情報が含まれている。 0.68
In total, FETA has 7 task annotations on top of the Friends scripts. FETAには、Friendsスクリプトの上に7つのタスクアノテーションがある。 0.73
As illustrated in Figure 2, the incorporated tasks include Emory emotion recognition (from (Zahiri and Choi, 2018)), reading comprehension (from (Ma et al , 2018)), character identification (from (Chen and Choi, 2016; Zhou and Choi, 2018)), question answering (from (Yang and Choi, 2019)), personality detection (from (Jiang et al , 2020)), and relation extraction (from DialogRE (Yu et al , 2020)) and MELD emotion recognition (from MELD (Poria et al , 2019)). 図2に示すように、組み込まれたタスクには、エモリー感情認識(Zahiri and Choi, 2018)、読解(Ma et al , 2018)、文字識別(Chen and Choi, 2016; Zhou and Choi, 2018)、質問応答(Yang and Choi, 2019)、個性検出(Jiang et al , 2020)、関係抽出(DialogRE (Yu et al , 2020)、MELD (Poria et al , 2019)などがある。 0.61
There are two emotion recognition label sets (Emory and MELD), but they have only 22% overlap in instance sets and have different label spaces. 2つの感情認識ラベルセット(emoryとmeld)があるが、インスタンスセットでは22%の重なりしかなく、異なるラベル空間を持っている。 0.72
For further details of these tasks, we refer the reader to Appendix A and their original papers. これらのタスクの詳細については、読者にappendix aとそのオリジナルの論文を参照する。 0.67
3.3 Evaluation Metrics To define the metrics, we consider 4 variables: source task s, target task t, model f, and learning algorithm A, and we abuse notation slightly to 3.3 評価指標 メトリクスを定義するには、ソースタスク s、ターゲットタスク t、モデル f、学習アルゴリズム A の4つの変数を検討します。 0.67
allow for fA(s, t) to represent a model trained on fA(s, t)がトレーニングされたモデルを表現することができる 0.80
the source and target tasks using the given learning algorithm. 与えられた学習アルゴリズムを用いたソースとターゲットタスク。 0.88
In FETA, we evaluate the performance of a model and learning algorithm with multiple FETAでは、複数のモデルと学習アルゴリズムの性能を評価する。 0.72
英語(論文から抽出)日本語訳スコア
metrics: average and top-1 raw scores, as well as average and top-1 score ∆s. 測定値: 平均スコアとトップ1の生スコア、および平均スコアとトップ1の生スコア。 0.68
Average and Top-1 Scores First, we consider the two raw scores: average score and top-1 score. まず、平均スコアとトップ1スコアの2つの生スコアを考える。 0.53
These metrics aim to answer the following questions: How well do a model and algorithm perform across all task pairs, and, how well do a model and algorithm perform supposing that we knew the best source task a priori. これらのメトリクスは以下の質問に答えることを目的としている: モデルとアルゴリズムは、すべてのタスクペアでどれくらいうまく機能するか、そして、モデルとアルゴリズムがどれだけうまく機能するか。
訳抜け防止モード: これらの指標は以下の質問に答えることを目的としている。 モデルとアルゴリズムは全てのタスクペアで実行されます モデルとアルゴリズムがいかにうまく機能するか 最優先のソースタスクを 知っていたと仮定して
0.79
We calculate an average score across all sourcetarget task pairs to understand how each model and algorithm performs in the aggregate. すべてのソースターゲットタスクペアの平均スコアを計算し、各モデルとアルゴリズムが集約の中でどのように機能するかを理解する。
訳抜け防止モード: 全てのソースターゲットタスクペアの平均スコアを計算し それぞれのモデルとアルゴリズムが集約でどのように振る舞うかを理解する。
0.79
Formally, let the score for a single task be computed as: 正式には、1つのタスクのスコアを次のように計算します。 0.55
score(s, t, f,A) = 1ࢯMtࢯࢯMtࢯ(cid:61) Mt,i(fA(s, t)) t, found in Table 1, and Mt,i(f) is the ith calcuscore(s, t, f,A) Average Score(f,A) = ࢯTࢯ ×(ࢯTࢯ − 1) 表1で見られるスコア(s, t, f,A) = 1 = Mt × (cid:61) Mt,i(fA(s, t)) t は ith calcuscore(s, t, f,A) Average Score(f,A) = . . . . . . . . . . . . . . . 0.80
lated metric of model f on task t. タスクtにおけるモデルfの遅延測定 0.58
All metrics range from 0 to 100. 全ての指標は 0 から 100 までである。 0.70
Then, we calculate the average score as: そして、平均スコアを次のように計算する。 0.69
where Mt is the set of metrics associated with task mtはタスクに関連するメトリクスの集合で 0.67
∑ s≠t∈T はっ すっ すっ すっ すっ 0.04
∑ t∈T i=1 エー・トゥート i=1 である。 0.25
where T is the set of tasks. ここで T はタスクの集合である。 0.76
Additionally, we calculate top-1 score to understand how models and algorithms perform if the best source task is known ahead of time. さらに、トップ1スコアを計算し、最良のソースタスクが事前に分かっている場合、モデルやアルゴリズムがどのように振る舞うかを理解する。 0.63
This score is calculated as the maximum score over source tasks averaged over target tasks. このスコアは、ターゲットタスクの平均的なソースタスクに対する最大スコアとして計算される。 0.64
The top-1 score does not consider scores less than the baseline, which is a model trained directly on the target task. top-1スコアは、ターゲットタスクで直接トレーニングされたモデルであるベースラインよりも低いスコアを考慮しない。 0.76
Denote the baseline algorithm by AB and the AB と the によるベースラインアルゴリズムについて 0.86
baseline score as score(s, t, f,AB). スコアはスコア(s, t, f, ab)。 0.48
Formally, the Top-1(f,A) = s≠t∈Tscore(s, t, f,AB), score(s, t, f,A) 形式的には、top-1(f,a) = ss(s, t, f,ab), score(s, t, f,a) である。 0.77
top-1 score is calculated as: top-1スコアは次のように計算される。 0.48
max ∑ t∈T マックス エー・トゥート 0.44
ࢯTࢯ Average and Top-1 ∆s In addition to raw scores, we also calculate score differences to measure how much a source task benefits a target task. はっ! 平均とTop-1のスコアに加えて、スコアの差を計算して、ソースタスクがターゲットタスクにどの程度利益をもたらすかを測定します。
訳抜け防止モード: はっ! 平均とトップ1は生のスコアに加えてスコアの差も計算します ソースタスクが目標タスクにどの程度の利益があるかを測定する。
0.47
The average ∆ describes how much benefit the model saw in the aggregate over all source tasks, while the top-1 ∆ considers only the best source. 平均は、すべてのソースタスクの集約でモデルがどの程度の利益を得たかを記述するが、トップ1は最良のソースのみを考慮に入れている。 0.51
Score ∆s are calculated with respect to the baseline score as: スコアは、下記の基準スコアに対して計算される。 0.60
score(s, t, f,A) − score(s, t, f,AB) score(s, t, f, a) − score(s, t, f,ab) 0.41
∆(s, t, f,A) = s(s, t, f, a) = 0.29
and the average ∆ is calculated as: 平均 s は次のように計算される。 0.62
Average ∆(f,A) = 平均:(f,a) = 0.53
∑ t∈T ∑ s≠t∈T エー・トゥート はっ すっ すっ すっ すっ 0.12
∆(s, t, f,A) ࢯTࢯ ×(ࢯTࢯ − 1) s≠t∈T0, ∆(s, t, f,A) s(s, t, f, a) は s(s, t, f, a) と s(s, t, f, a) である。 0.55
max ࢯTࢯ Additionally, we calculate the top-1 ∆ as the maximum positive score difference over source tasks averaged over target tasks: マックス はっ! さらに,対象タスクの平均的なソースタスクに対する最大正のスコア差としてtop-1を計算した。 0.54
Top-1 ∆(f,A) = top-1(f,a) = 0.37
∑ t∈T 4 Task Transfer Algorithms In this work, we consider three commonly used task transfer methods: Pre-train/Fine-tune, Multitask, Multitask/Fine-tune. エー・トゥート 4タスク転送アルゴリズム 本研究では,プリトレイン/Fine-tune, Multitask, Multitask/Fine-tuneの3つのタスク転送手法について検討する。
訳抜け防止モード: エー・トゥート 4 タスク転送アルゴリズム この研究でよく使われる3つのタスク転送手法について考察する。 Multitask , Multitask / Fine - 曲。
0.46
We apply these methods with cross-entropy loss to further optimize pretrained language models on FETA. 我々はこれらの手法をクロスエントロピー損失で適用し、FETA上の事前学習言語モデルをさらに最適化する。 0.57
Pre-train/Fine-tune Commonly used in NLP today, the pre-train/fine-tune algorithm consists of two stages of training (Pratt et al , 1991). 現在NLPで使われているプレトレイン/ファインチューンアルゴリズムは、トレーニングの2段階からなる(Pratt et al , 1991)。 0.77
First, the model is trained on the source task TS, optimizing Eq 1, followed by a separate stage of training on the target task TT , optimizing Eq 2: まず、モデルがソースタスクTSに基づいてトレーニングされ、Eq 1が最適化され、続いてターゲットタスクTTが個別にトレーニングされ、Eq 2が最適化される。
訳抜け防止モード: まず、モデルはソースタスクTSでトレーニングされる。 Eq 1の最適化に続いて、ターゲットタスクTTでのトレーニングの別々のステージが続く。 Eq 2 の最適化
0.74
−E (x,ys)∼{X,YS} log p(ysࢯx) (x,yt)∼{X,YT} log p(ytࢯx) -E (x,ys)<{x,ys}>logp(ys,x)>(x,yt)<{x,yt>>logp(yt,x)> 0.67
−E LS = LT = -E LS = LT = 0.51
(1) (2) Multitask In this algorithm, there is only a single stage of multitask training (Caruana, 1994). (1) (2) マルチタスク このアルゴリズムでは、マルチタスクトレーニングのステージは1つしかない(Caruana, 1994)。 0.51
Formally, the training is conducted on both the source and target task by optimizing Eq 3: LS,T = 正式には、eq 3: ls,t = を最適化して、ソースとターゲットの両方のタスクでトレーニングを行う。 0.68
(x,ys,yt)∼{X,YS ,YT} log p(ysࢯx) + log p(ytࢯx) (x,ys,yt) が {x,ys ,yt} が log p(ys,x) + log p(yt,x) である。 0.82
−E (3) Multitask/Fine-tune This algorithm combines the previous algorithms in two stages. -E (3) マルチタスク/ファイントチューン このアルゴリズムは、以前のアルゴリズムを2段階組み合わせている。 0.59
In the first stage, the source and target task are optimized jointly, as in Eq 3. 第1段階では、eq3のようにソースとターゲットタスクを共同で最適化する。 0.72
Then, the second stage trains using only the target task, as in Eq 2. そして、第2ステージは、eq2のようにターゲットタスクのみを使用する。 0.65
Even though model selection in multitasking is generally done w.r.t. multiple source and target tasks (Caruana, 1994), we modify the setting to validate a model on a single target task at a time. マルチタスクにおけるモデル選択は一般的に複数のソースおよびターゲットタスク(caruana, 1994)で行われるが、一度に1つのターゲットタスクでモデルを検証するために設定を変更した。 0.84
This allows hyperparameter search and early stopping to be controlled by the desired target task. これにより、ハイパーパラメータ検索と早期停止が望ましいターゲットタスクによって制御される。 0.74
英語(論文から抽出)日本語訳スコア
Model BERT GPT-2 モデル バート GPT-2 0.51
T5 Transfer Algorithm T5 転送アルゴリズム 0.58
Pre-train/Fine-tune Multitask Multitask/Fine-tune Pre-train/Fine-tune Multitask Multitask/Fine-tune Pre-train/Fine-tune Multitask Multitask/Fine-tune Pre-train/Fine-tune Multitask/Fine-tune Pre-train/Fine-tune Multitask/Fine-tune Pre-train/Fine-tune Multitask/Fine-tune 0.15
DailyDialog DailyDialog 0.42
Average Score (σ) 50.61 (0.24) 50.95 (0.24) 51.40 (0.25) 39.80 (0.25) 40.21 (0.24) 41.15 (0.23) 49.92 (0.37) 49.49 (0.42) 50.29 (0.36) 平均 Score (σ) 50.61 (0.24) 50.95 (0.24) 51.40 (0.25) 39.80 (0.25) 40.21 (0.24) 41.15 (0.23) 49.92 (0.37) 49.49 (0.42) 50.29 (0.36) 0.54
∆ -0.93 -0.59 -0.15 -1.28 -0.86 +0.07 +0.19 -0.24 +0.56 ∆ -0.93 -0.59 -0.15 -1.28 -0.86 +0.07 +0.19 -0.24 +0.56 0.29
Top-1 Source Score ∆ 52.22 52.40 52.76 42.19 41.77 42.76 53.04 52.98 52.85 トップ-1 ソーススコア: 52.22 52.40 52.76 42.19 41.77 53.04 52.98 52.85 0.49
+0.68 +0.86 +1.22 +1.11 +0.69 +1.68 +3.31 +3.25 +3.12 +0.68 +0.86 +1.22 +1.11 +0.69 +1.68 +3.31 +3.25 +3.12 0.16
Average Score (σ) 42.39 (0.30) 42.88 (0.29) 44.69 (0.28) 32.66 (0.18) 33.10 (0.16) 34.62 (0.15) 41.73 (0.19) 40.42 (0.20) 42.29 (0.17) 平均 Score (σ) 42.39 (0.30) 42.88 (0.29) 44.69 (0.28) 32.66 (0.18) 33.10 (0.16) 34.62 (0.15) 41.73 (0.19) 40.42 (0.20) 42.29 (0.17) 0.54
Friends ∆ -0.89 -0.40 +1.41 -0.64 -0.20 +1.32 -1.10 -2.40 -0.53 友達 ∆ -0.89 -0.40 +1.41 -0.64 -0.20 +1.32 -1.10 -2.40 -0.53 0.42
Top-1 Source Score ∆ 44.36 45.14 46.00 34.34 34.83 35.86 43.52 43.33 43.87 トップ-1 ソーススコア 44.36 45.14 46.00 34.34 34.83 35.86 43.52 43.33 43.87 0.47
+1.08 +1.86 +2.72 +1.04 +1.53 +2.56 +0.69 +0.51 +1.05 +1.08 +1.86 +2.72 +1.04 +1.53 +2.56 +0.69 +0.51 +1.05 0.16
Table 2: Average and Top-1 Source task transfer scores. 表2: 平均およびトップ1のソースタスク転送スコア。 0.85
Average scores and ∆s aggregate scores over all source tasks, compared with Top-1 scores and ∆s which are calculated with scores from the highest performing source task. すべてのソースタスクの平均スコアと/s集約スコアは、最もパフォーマンスの高いソースタスクのスコアと計算されるtop-1スコアと/sと比較される。 0.57
∆s are the difference from the baseline score without task transfer. s はタスク転送なしでのベースラインスコアとの違いである。 0.65
Highest values for each model are underlined, highest values across all models are bolded. 各モデルの最高値は下線で、すべてのモデルの最高値は大胆です。 0.80
5 Experiment Setup 5 実験セットアップ 0.81
To study task transfer on FETA, we run extensive experimentation. FETA上でタスク転送を研究するために,我々は広範囲な実験を行った。 0.58
We utilize three task transfer algorithms: pre-train/fine-tune, multitask, and multitask/fine-tune, as described in Section 4. 第4節で述べたように,プリトレイン/ファイントチューン,マルチタスク,マルチタスク/ファイントチューンという3つのタスク転送アルゴリズムを利用する。 0.58
To draw broad conclusions about the performance of each learning algorithm, we utilize pretrained language models with three different architectures: encoder-only (BERT) (Devlin et al , 2019), decoder-only (GPT-2) (Radford et al , 2019), and encoder-decoder (T5) (Raffel et al , 2020). 各学習アルゴリズムの性能について幅広い結論を得るために,Encoder-only (BERT) (Devlin et al , 2019), decoder-only (GPT-2) (Radford et al , 2019), encoder-decoder (T5) (Raffel et al , 2020) の3つの異なるアーキテクチャで事前訓練された言語モデルを利用する。 0.86
Implementation details, including hyperparameters and prompts, can be found in Appendix B. ハイパーパラメータやプロンプトを含む実装の詳細は、appendix bで確認できる。 0.73
A complete experiment for a single target task, T , is as follows: First, we directly fine-tune on T to get the baseline score. まず、T を直接微調整してベースラインスコアを得る。
訳抜け防止モード: 1つの目標タスク T に対する完全な実験は以下の通りである。 まず、ベースラインスコアを得るためにTをチューニングします。
0.73
Then, for each source task, S, we take the model pre-trained on S and fine-tune on T . そして、各元タスク S に対して、S 上で事前訓練されたモデルと T 上のファインチューンをとる。 0.66
Next, we jointly train on S and T together. 次に、SとTを一緒に訓練します。 0.69
Finally, we fine-tune the jointly trained model on T . 最後に、Tで共同訓練されたモデルを微調整する。 0.60
FETA datasets have 10 and 7 tasks, giving 90 + 42 = 132 unique source-target task pairs. FETAデータセットは10と7のタスクを持ち、90 + 42 = 132のユニークなソースターゲットタスクペアを提供する。 0.67
Our experiments include three learning algorithms, three models, and we run each experiment with 5 random seeds. 実験には3つの学習アルゴリズム、3つのモデルがあり、各実験は5つのランダムシードで実行されます。
訳抜け防止モード: 実験には3つの学習アルゴリズム、3つのモデル、そして ランダムな種を5つずつ実験します
0.81
In total, we run 132 × 3 × 3 × 5 = 5940 transfer experiments, and 17×3×5 = 255 baseline experiments leading to 6195 trained models. 合計132 × 3 × 3 × 5 = 5940 の転送実験を行い、17×3×5 = 255 のベースライン実験を行い、6195 のトレーニングモデルを得た。 0.83
In addition to the single-source setting described above, we also consider a subset of tasks to study in the multi-source setting, where multiple tasks are simultaneously used as source tasks to transfer to a single target task (6.2). 上述した単一ソース設定に加えて、複数のタスクをソースタスクとして同時に使用して単一のターゲットタスクに転送するマルチソース設定で研究するタスクのサブセットについても検討する(6.2)。 0.85
For our experiments, we select two target tasks from each dataset that benefit the most from task transfer, and we use the three source tasks that transferred best onto those targets. 実験では、各データセットからタスク転送の利点を最大限に活用する2つのターゲットタスクを選択し、それらのターゲットに最適な3つのソースタスクを使用します。 0.75
6 Results and Analysis 6.1 Single-Source Setting Table 2 shows the results for all three models and algorithms, and we use this table to understand general trends. 6結果と分析 6.1 単一ソース設定表2は3つのモデルとアルゴリズムのすべての結果を示し、一般的な傾向を理解するためにこの表を使用する。 0.73
Figure 3 shows the relative improvement of a source task for each target task, demonstrating trends across tasks. 図3は、対象タスク毎のソースタスクの相対的な改善を示し、タスク間のトレンドを示しています。 0.67
Aggregate Performance We find that, on average, Friends tasks get scores between 7-8 points less than DailyDialog, likely due to the greater number of speakers and utterance length of Friends. 総合的なパフォーマンス 平均すると、友人のタスクは、毎日のダイアログよりも7~8ポイント低いスコアを得る。
訳抜け防止モード: Aggregate Performance 平均すると、FriendsタスクはDailyDialogより7~8ポイント低いスコアを得る。 Friendsの話者数の増加と発話長の増大が原因だろう。
0.63
We find that GPT-2 lags behind the raw scores of BERT and T5 by ∼10 points. GPT-2はBERTとT5の生スコアよりも10ポイント遅れていることがわかった。 0.66
This is expected as autoregressive decoder models are not designed with classification in mind. 自動回帰デコーダモデルは分類を念頭に設計されていないため、これは期待できる。 0.62
We find that the largest average ∆ is 1.4, leaving room for improvement in task transfer on FETA. 最大平均 1.4 であり、FETA 上のタスク転送を改善する余地を残している。 0.67
Furthermore, we are interested in knowing: how much we would gain by using the best source task vs. a random source task. さらに、私たちは、最適なソースタスクとランダムなソースタスクを使用することで、どの程度得られるかを知ることに興味があります。
訳抜け防止モード: さらに私たちは 知る:最高のソースタスクとランダムなソースタスクを使用することで、どれだけの利益が得られるか。
0.76
We calculate the differences between average ∆ and top-1 ∆ and find the mean difference to be ∼1.6 and the largest difference to be ∼3.5, motivating a further understanding of which source tasks transfer best to target tasks. 平均 s と top-1 の差を計算し,平均差が 1.6 であり,最大差が 3.5 であることを示す。
訳抜け防止モード: 平均値と平均値の差を計算し、平均値の差を平均値の1.6とする。 最大の違いは は、どのソースタスクが最もターゲットタスクに転送されるかのさらなる理解を動機付けます。
0.60
Performance Across Learning Algorithms We average scores across both datasets and find that pre-train/fine-tune gets an average score of 42.85, multitask 42.84, and multitask/fine-tune 44.07. パフォーマンス 学習アルゴリズム 両方のデータセットの平均スコアと、事前トレーニング/ファイントゥンの平均スコアは42.85、マルチタスク42.84、マルチタスク/ファイントゥン44.07である。 0.65
Table 2 shows that multitask/fine-tune achieves the best average score for all models and datasets, and indeed its average score is a 2.8% improvement over the other algorithms. 表2は、マルチタスク/ファインチューンが全てのモデルとデータセットで最高の平均スコアを達成し、実際、その平均スコアは他のアルゴリズムよりも2.8%改善していることを示している。 0.58
However, aggregate scores obscure some interesting nuances. しかし、集計スコアはいくつかの興味深いニュアンスを曖昧にしている。 0.40
Do Trends Vary Across Models? トレンドはモデルによって異なるか? 0.63
Previous studies on task transfer have focused on a single model タスク転送に関する先行研究は単一モデルに焦点をあてている 0.72
英語(論文から抽出)日本語訳スコア
Figure 3: Relative improvement of transfer over fine-tuned baselines. 図3: 微調整されたベースライン上の転送の相対的改善。 0.61
Rows are source tasks and columns are target tasks. 行はソースタスクであり、列はターゲットタスクである。 0.60
Diagonal cells are baseline scores. 対角細胞はベースラインスコアである。 0.73
Looking at an individual column can demonstrate best source tasks for that target. 個々の列を見ることで、そのターゲットに最適なソースタスクが示される。 0.66
Looking at rows can determine which source task works well across multiple targets. 行を見ることで、どのソースタスクが複数のターゲットでうまく機能するかを判断できる。 0.60
(Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022), but we find that trends vary depending on the model. (Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022)。
訳抜け防止モード: (Pruksachatkun et al, 2020, Lourie et al, 2021, Aribandi et al, 2022) しかし傾向はモデルによって異なります
0.71
For example, we find results similar to Lourie et al (2021), namely, that fine-tuning on the target task always benefits the T5 model. 例えば、lourie et al (2021) と同じような結果が得られます。
訳抜け防止モード: 例えば、Lourie et al (2021 ) と同様の結果が見つかる。 つまり その... ターゲットタスクのチューニングは常にT5モデルにメリットがあります。
0.68
However, we discover that this does not hold for BERT and GPT-2. しかし、これはBERT や GPT-2 には当てはまらない。 0.57
Furthermore, Figure 3 shows that trends on individual tasks also vary depending on the model. さらに、図3は、個々のタスクの傾向がモデルによって異なることを示している。 0.70
For example, T5 positively transferred knowledge to question answering with all learning algorithms and from most source tasks, while GPT-2 had a negative transfer from all algorithms and sources. 例えば、t5はすべての学習アルゴリズムとほとんどのソースタスクから質問応答に知識を正に転送し、gpt-2はすべてのアルゴリズムとソースから負の転送を行った。 0.75
For nearly all dimensions of analysis (e g , sample sizes, learning algorithm), we find different trends between models. 分析のほぼすべての次元(例:サンプルサイズ、学習アルゴリズム)に対して、モデル間に異なる傾向を見出す。 0.79
We strongly suggest that future research be performed on multiple models before attempting to draw broad conclusions on transfer learning. 転送学習に関する幅広い結論を導き出す前に、複数のモデルで将来の研究を行うことを強く提案する。 0.79
Do All Task Types Benefit Equally? すべてのタスクタイプは平等か? 0.72
We find that span extraction tasks gain the most as target tasks, as shown in Figure 4. 図4に示すように、スパン抽出タスクはターゲットタスクとして最も多く利用される。 0.72
Multiple choice tasks also stand to gain from task transfer, but we find that only occurs at a 10:1 ratio of source-target samples. 複数の選択タスクもタスク転送から得られるが、ソースターゲットのサンプルの10:1の割合でのみ発生することが分かる。 0.74
This gain is likely due to the high-level language understanding required by both tasks. この利点は、両方のタスクで必要となる高いレベルの言語理解のためだろう。 0.65
Figure 4: Score ∆ by target task type. 図4: ターゲットのタスクタイプによってスコアを付ける。 0.66
Lines show the average score ∆ when the target task is of the specified task type, computed as a best-fit linear interpolation of the data with a 95% confidence interval. ラインは、目標タスクが指定されたタスクタイプである場合の平均スコア ^ を示し、95%の信頼区間でデータの最適線形補間として計算される。 0.81
Additionally, we find that utterance-level classification tasks decrease in score ∆ at increasing source-to-target sample ratios. また,発話レベルの分類タスクでは,ソース対ターゲットのサンプル比が増加するとスコアが低下することがわかった。 0.54
This is possibly due to models overfitting to specific tasks and forgetting some general skills learned during their large-scale pre-training. これはおそらく、特定のタスクに過度に適合し、大規模な事前トレーニングで学んだ一般的なスキルを忘れるモデルによるものだ。 0.55
Do All Task Types Give Equal Benefit? すべてのタスクタイプは平等か? 0.60
We find that multiple-choice tasks give the greatest benefit as source tasks, especially when the ratio of source-to-target samples is low, as shown in Figure 9 in the Appendix. Appendixの図9に示すように、ソースとターゲットのサンプルの割合が低い場合には、複数の選択タスクがソースタスクとして最大のメリットをもたらします。 0.78
Additionally, we find that at a ratio of 10:1 source-target samples, さらに、10:1のソースターゲットサンプルの比率で発見する。 0.77
英語(論文から抽出)日本語訳スコア
Target DRSE DNLI +1.37 +1.57 +2.28 +0.16 +0.98 -0.09 +1.95 -0.96 -1.20 ターゲットDRSE DNLI+1.37 +1.57 +2.28 +0.16 +0.98 -0.09 +1.95 -0.96 -1.20 0.36
T P/F M R E M/F B 2 P/F M T P M/F G P/F M M/F t p/f m r e m/f b 2 p/f m t p m/f g p/f m m/f 0.57
-1.18 +2.77 +1.61 +0.40 +0.78 +0.73 +0.60 -1.08 -1.22 -1.18 +2.77 +1.61 +0.40 +0.78 +0.73 +0.60 -1.08 -1.22 0.16
- 5 T CI -2.11 -0.54 -0.34 +4.25 +1.28 +0.00 -0.79 -1.49 -0.24 - 5T CI -2.11 -0.54 -0.34 +4.25 +1.28 +0.00 -0.79 -1.49 -0.24 0.44
QA -0.99 -1.14 -0.55 -3.90 -2.46 -0.95 +0.48 +0.08 -0.22 QA -0.99 -1.14 -0.55 -3.90 -2.46 -0.95 +0.48 +0.08 -0.22 0.17
Figure 5: Score ∆ by sample count. 図5: サンプル数によるスコア ^ 。 0.78
Sample count is on the x-axis (log scale) and score ∆ is on the y-axis. サンプルカウントは x 軸(log スケール)、スコア は y 軸(y 軸)である。 0.74
The blue dotted line represents the average transfer ∆ from a source task to all target tasks. 青い点線は、ソースタスクからすべてのターゲットタスクへの平均転送量である。 0.62
The brown line represents the average transfer ∆ to a target task from all sources. ブラウン線は、すべてのソースから対象タスクへの平均移動 t を表す。 0.62
Trend lines are a linear best-fit on the data with a 95% confidence interval. トレンドラインは95%の信頼区間を持つデータに対する線形ベストフィットである。 0.88
dialogue-level classification benefits downstream tasks, but utterance-level classification requires a ratio of 100:1. 対話レベルの分類は下流のタスクに役立つが、発話レベルの分類は100:1の比率を必要とする。 0.54
How Do Sample Sizes Affect Transfer? サンプルサイズは転送にどのように影響するか? 0.59
Figure 5 shows that, interestingly, GPT-2 and T5 have opposite trends in relation to sample size. 図5は、興味深いことに、GPT-2とT5はサンプルサイズに関して反対の傾向を示す。 0.67
We find that ∆s for GPT-2 increase with high target samples and decrease with high source samples. その結果, GPT-2 は高ターゲット試料で増加し, 高ソース試料では減少することがわかった。 0.67
This suggests that GPT-2 may be overfitting to the source task and performs better with resource-rich target tasks. これは、GPT-2がソースタスクに過度に適合し、リソースに富んだターゲットタスクでより良いパフォーマンスを発揮することを示唆している。 0.44
We find that T5 ∆s decrease as target-task samples increase, suggesting that T5 is more sample efficient than both GPT-2 and BERT. その結果, T5 は GPT-2 や BERT よりも試料効率が高いことが示唆された。 0.68
6.2 Multi-Source Setting For multi-source transfer, we select four target tasks with the best score differences from the single-source setting, shown in Figures 7 and 8 in the Appendix. 6.2 マルチソース設定 マルチソース転送では、Appendix の図 7 と 8 に示すように、単一ソース設定と最もスコアが異なる4つのターゲットタスクを選択します。 0.73
We find those four tasks to be Dialogue Reasoning Span Extraction (DRSE), Dialogue-Level NLI (DNLI), Character Identification (CI), and Question Answering (QA). これら4つのタスクは、DRSE(Dialogue Reasoning Span extract)、DNLI(Dnalogue-Level NLI)、CI( character Identification)、QA(QA)である。 0.66
For these target tasks, we select the top-3 best source tasks, shown in Table 6 of the Appendix . これらのターゲットタスクに対して、Appendixのテーブル6に示されているトップ3のソースタスクを選択します。 0.67
Learning in this setting is similar to single-source, except we now simultaneously optimize the loss for multiple source tasks. この設定での学習はシングルソースに似ていますが、複数のソースタスクの損失を同時に最適化します。
訳抜け防止モード: この設定で学ぶ is similar to one- source, except 同時に複数のソースタスクの損失を最適化します
0.84
Table 3 shows the multi-source results compared with the average score of the top-3 source 表3は、トップ3ソースの平均スコアと比較して、マルチソースの結果を示しています。 0.54
Table 3: Multi-source score ∆s from the average score of the top-3 source tasks. 表3: 複数ソースのスコアは、トップ3ソースのタスクの平均スコアから来る。 0.63
Full results, including score ∆s from the fine-tuned baseline in Table 6. 表6の細調整されたベースラインからのスコアを含む完全な結果。 0.62
tasks from the single-source setting. 単一ソース設定からのタスク。 0.65
Full results, including score ∆s from the fine-tuned baseline and top-3 scores are in Table 6 of the Appendix. 微調整されたベースラインとトップ3スコアのスコアを含む完全な結果は、Appendixの表6にある。 0.65
Improve Over SingleDoes Multi-source source? SingleDoesのマルチソースを改善するか? 0.73
We expect that multi-source should improve performance for all models and algorithms, but find results to the contrary. マルチソースはすべてのモデルやアルゴリズムのパフォーマンスを改善するだろうが、その逆の結果が見つかるだろう。 0.67
We find that 6/9 multi-source algorithms outperform their average top-3 single-source counterparts in DRSE, 6/9 for DNLI, 3/9 for CI, and only 2/9 for QA, showing that naively combining source tasks is not always beneficial. DNLIでは6/9、CIでは3/9、QAでは2/9と、DRSEでは6/9のマルチソースアルゴリズムが平均的なトップ3のソースアルゴリズムよりも優れています。 0.76
Which Models Benefit From Multi-Source? マルチソースから利益を得るモデルとは? 0.51
Table 6 shows that GPT-2 improves in 8/12 experiments over its average top-3 single-source counterparts, but BERT only 5/12 and T5 in only 4/12 experiments. 表6は、GPT-2が平均的なトップ3ソースよりも8/12実験で改善されていることを示しているが、BERTはわずか4/12実験で5/12とT5のみである。 0.50
It is counter-intuitive that T5 should perform the worst as we expect that it has a higher capacity for learning due to twice the model size. モデルサイズが2倍になるため、学習能力が高いという期待から、T5が最悪のパフォーマンスを発揮するのは直感的ではない。 0.72
On the other hand, the additional parameters may be causing T5 to overfit on training data in the few-sample setting. 一方、追加パラメータは、T5が少数のサンプル設定でトレーニングデータに過度に適合する可能性がある。 0.72
7 Conclusion We introduce FETA, a comprehensive benchmark for evaluating language models and task transfer learning algorithms in open-domain dialogue with few samples. 7 結論 サンプルが少ないオープンドメイン対話において,言語モデルとタスク伝達学習アルゴリズムを評価するための総合ベンチマークであるFETAを紹介する。 0.72
Through extensive experimentation, we find new and non-intuitive insights on the mechanisms of transfer learning. 広範な実験を通じて、トランスファー学習のメカニズムに関する新しい直観的な洞察が得られます。 0.70
In particular, we find that most trends are model-specific, and we strongly encourage researchers to consider multiple model architectures before attempting to draw broad conclusions on transfer learning. 特に,ほとんどの傾向はモデル固有であり,転帰学習に関する広範な結論を導き出す前に,複数のモデルアーキテクチャを検討することを強く推奨する。 0.84
It is our hope that FETA enables further research not only in task transfer, but also in other learning settings, and in the generalizability and efficiency of model architectures and pre-training datasets. FETAは、タスク転送だけでなく、他の学習環境、モデルアーキテクチャや事前学習データセットの汎用性と効率性においても、さらなる研究を可能にすることを願っています。 0.64
英語(論文から抽出)日本語訳スコア
Broader Impact A concern regarding any work that includes largescale experiments with large language models is the energy consumption and environmental impact, the current work included. 幅広い影響 大規模言語モデルによる大規模な実験を含む研究は、エネルギー消費と環境への影響が懸念されている。 0.70
While there is a cost to running these experiments, the goal of this work is to improve sample efficiency in the future and we hope that the benefits in future energy saved will outweigh the up-front costs of discovering efficient methods. これらの実験にはコストがかかるが、この研究の目標は、将来サンプル効率を改善することであり、将来の省エネによる利益が、効率的な方法を発見するための事前コストを上回ることを願っている。 0.73
Another concern of a large-scale benchmark is that of accessibility. 大規模ベンチマークのもう一つの懸念はアクセシビリティである。 0.56
A benchmark requiring too many resources will limit those who can reasonably compete. あまりにも多くのリソースを必要とするベンチマークは、合理的に競争できる人を制限します。 0.50
For this reason and others, in addition to our large-scale benchmark we also include a smaller multi-source setting which requires only 4 experiments to be run for a single model and algorithm, rather than 132 in the single-source setting. そのため、大規模なベンチマークに加えて、シングルソース設定では132ではなく、1つのモデルとアルゴリズムで4つの実験しか実行できない、より小さなマルチソース設定も含んでいます。 0.65
We believe this smaller setting will maintain the ability to extract high-quality insights on task transfer, yet allow for increased community access and reduce the carbon footprint of this benchmark. この小さな設定は、タスク転送に関する高品質な洞察を抽出する能力を維持しつつ、コミュニティアクセスを拡大し、このベンチマークのカーボンフットプリントを削減できると考えている。 0.62
Our work does have limitations. 私たちの仕事には限界があります。 0.56
While we do control for domain adaptation in our experiments on task transfer, there are some aspects that we cannot control. タスク転送の実験ではドメイン適応を制御していますが、制御できないいくつかの側面があります。 0.71
For example, each model has done language model pre-training with a different corpus. 例えば、各モデルは異なるコーパスで言語モデルを事前訓練しました。 0.77
BERT was trained on English Wikipedia and BookCorpus (Zhu et al , 2015), GPT-2 was trained on a WebText (Radford et al , 2019), and T5 was trained on C4 (Raffel et al , 2020). BERTは英語のWikipediaとBookCorpus(Zhu et al , 2015), GPT-2はWebText(Radford et al , 2019), T5はC4(Raffel et al , 2020)でトレーニングされた。 0.74
This difference likely affects model performance on the dialogue tasks in FETA. この違いは、FETAの対話タスクにおけるモデルパフォーマンスに影響する可能性が高い。 0.58
Additionally, we cannot exhaustively test every language model, but still try to provide enough variety in order to draw broad conclusions on task transfer. 加えて、すべての言語モデルを徹底的にテストすることはできませんが、タスク転送に関する幅広い結論を引き出すために十分な多様性を提供しようとします。 0.67
For example, we don’t run any experiments on language models pre-trained in the dialogue domain or language models larger than basesized. 例えば、対話ドメインやベースサイズ以上の言語モデルで事前トレーニングされた言語モデルに関する実験は行いません。 0.78
We expect that both of these changes would improve raw performance on FETA. これらの変更によって、FETAの生のパフォーマンスが向上することを期待しています。 0.52
More importantly though, it is unclear whether either of these changes would lead to improved task-transfer performance (average and top-1 ∆s) and we leave this exploration for future work. さらに重要なことに、これらの変更がタスク転送パフォーマンスの改善(平均とtop-1 s)に繋がるかどうかは不明であり、私たちはこの調査を今後の作業に残しています。
訳抜け防止モード: さらに重要なことに、これらの変更がタスク - 転送パフォーマンス(平均値とトップ1値)の改善に繋がるかどうかは不明だ。 将来の研究のためにこの探検を残します
0.70
Finally, we stress the importance of intra-dataset task transfer in this work. 最後に,本研究におけるデータセット内タスク転送の重要性を強調した。 0.60
However, this limits the number of pre-annotated tasks that are available, and there are certainly some tasks which we were not able to accomodate in FETA. しかし、これは利用可能な注釈付きタスクの数を制限しており、FETAでアコモテートできないタスクがいくつかあることは確かである。 0.72
References Alon Albalak. Alon Albalakを参照。 0.83
2022. The Transfer Learning in Dia- 2022. diaにおけるトランスファー学習 0.59
logue Benchmarking Toolkit. logue Benchmarking Toolkit 0.30
Rie Kubota Ando and Tong Zhang. Rie Kubota AndoとTong Zhang。 0.75
2005. A framework for learning predictive structures from multiple tasks and unlabeled data. 2005. 複数のタスクとラベルなしデータから予測構造を学習するフレームワーク。 0.62
Journal of Machine Learning Research, 6(61):1817–1853. Journal of Machine Learning Research, 6(61):1817–1853 0.46
Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, and Donald Metzler. Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler 0.40
2022. Ext5: Towards extreme multi-task scaling for transfer learning. 2022. ext5: 転送学習のための極端なマルチタスクスケーリングに向けて。 0.52
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Trapit Bansal, Rishikesh Jha, Tsendsuren Munkhdalai, Self-supervised and Andrew McCallum. Trapit Bansal、Rishikesh Jha、Tsendsuren Munkhdalai、Self-supervised、Andrew McCallum。 0.38
2020. meta-learning for few-shot natural language classification tasks. 2020. 少数の自然言語分類タスクのためのメタラーニング 0.54
In EMNLP. Shai Ben-David, John Blitzer, Koby Crammer, Alex Kulesza, Fernando Pereira, and Jennifer Vaughan. 略称はemnlp。 Shai Ben-David、John Blitzer、Koby Crammer、Alex Kulesza、Fernando Pereira、Jennifer Vaughan。 0.38
2010. A theory of learning from different domains. 2010. 異なる領域から学ぶ理論。 0.46
Machine Learning, 79:151–175. 機械学習、79:151–175。 0.30
Joachim Bingel and Anders Søgaard. Joachim BingelとAnders Søgaard。 0.39
2017. Identifying beneficial task relations for multi-task learning in deep neural networks. 2017. ディープニューラルネットワークにおけるマルチタスク学習のための有益タスク関係の同定 0.56
In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 164–169, Valencia, Spain. 第15回欧州計算言語学会欧州支部紀要:第2巻、短文、164-169頁、スペイン・バレンシア。
訳抜け防止モード: 計算言語学会欧州支部第15回大会報告 : 第2巻 Short Papers, page 164–169 , Valencia, Spain.
0.60
Association for Computational Linguistics. Peter F. Brown, Vincent J. Della Pietra, Peter V. deSouza, Jenifer C. Lai, and Robert L. Mercer. 計算言語学会会員。 ピーター・f・ブラウン、ヴィンセント・j・デラ・ピエトラ、ピーター・v・デズーザ、ジェニファー・c・ライ、ロバート・l・マーサー。
訳抜け防止モード: 計算言語学会会員。 Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza ジェニファー・C・レイ、ロバート・L・マーサー。
0.67
1992. Class-based n-gram models of natural language. 1992. 自然言語のクラスベースn-gramモデル。 0.58
Computational Linguistics, 18(4):467–480. 計算言語学、18(4):467–480。 0.70
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ia Sutsk, Dario Démod
訳抜け防止モード: トム・ブラウン ベンジャミン・マン ニック・ライダー メラニー・サブビア ジャレッド・d・カプラン prafulla dhariwal, arvind neelakantan, pranav shyam, girish sastry amanda askell, sandhini agarwal, ariel herbertvoss, gretchen krueger, トム・ヘニハン ルーオン・チャイルド アディティヤ・ラメシュ ダニエル・ジーグラー ジェフリー・ウー クレメンス・ウィンター クリス・ヘッセ マーク・チェン eric sigler氏、mateusz litwin氏、scott gray氏、benjamin chess氏、jack clark氏。 クリストファー・バーナー、サム・マカンドリッシュ、アレク・ラドフォード、イリヤ・サツバー。 そして、ダリオ・アモデイ。
0.57
2020. Language models are few-shot learners. 2020. 言語モデルはわずかな学習者です。 0.56
In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. 神経情報処理システムの進歩』第33巻、1877-1901頁。 0.70
Curran Associates, Inc. Curran Associates, Inc. 0.42
Rich Caruana. 1994. 豊かなカルーアナ 1994. 0.42
Learning many related tasks at the same time with backpropagation. バックプロパゲーションで多くの関連するタスクを同時に学習する。 0.78
In Advances in Neural Information Processing Systems, volume 7. ニューラル情報処理システムの進歩, 巻7 0.55
MIT Press. Yu-Hsin Chen and Jinho D. Choi. mitプレス。 Yu-Hsin Chen と Jinho D. Choi 0.44
2016. Character identification on multiparty conversation: Identifying mentions of characters in TV shows. 2016. 多人数会話におけるキャラクタ識別:テレビ番組におけるキャラクタの言及の識別。 0.52
In Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 90– 第17回「談話・対話特別関心グループ」年次大会紀要90-
訳抜け防止モード: 第17回特別利害団体談話・対話会議の議事録において 90頁。
0.58
英語(論文から抽出)日本語訳スコア
100, Los Angeles. ロサンゼルス、100歳。 0.65
Association for Computational Linguistics. Ronan Collobert and Jason Weston. 計算言語学会会員。 ロナン・コロバートとジェイソン・ウェストン 0.55
2008. A unified architecture for natural language processing: Deep In Proneural networks with multitask learning. 2008. 自然言語処理のための統一アーキテクチャ:マルチタスク学習を伴うDeep In Proneural Network。 0.64
ceedings of the 25th International Conference on Machine Learning, ICML ’08, page 160–167, New York, NY, USA. 25th international conference on machine learning, icml ’08, page 160–167, new york, ny, usa. (英語)
訳抜け防止モード: 第25回機械学習国際会議, ICML'08に参加して 160-167頁、ニューヨーク、ニューヨーク、アメリカ。
0.79
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。 0.50
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota.
訳抜け防止モード: 計算言語学会北米支部の紹介 : 人間言語技術 第1巻(長編・短編)、4171-4186頁、ミネソタ州ミネアポリス。
0.56
Association for Computational Linguistics. Deepanway Ghosal, Pengfei Hong, Siqi Shen, Navonil Majumder, Rada Mihalcea, and Soujanya Poria. 計算言語学会会員。 Deepanway Ghosal, Pengfei Hong, Siqi Shen, Navonil Majumder, Rada Mihalcea, Soujanya Poria 0.42
2021. CIDER: Commonsense inference for diaIn Proceedings logue explanation and reasoning. 2021. CIDER: diaIn Proceedings ログの説明と推論のための常識推論。 0.59
of the 22nd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 301– 313, Singapore and Online. 第22回特別関心グループ「談話と対話」では、301-313ページ、シンガポールとオンラインを扱っている。 0.67
Association for Computational Linguistics. Ehsan Hosseini-Asl, Bryan McCann, Chien-Sheng Wu, Semih Yavuz, and Richard Socher. 計算言語学会会員。 Ehsan Hosseini-Asl, Bryan McCann, Chien-Sheng Wu, Semih Yavuz, Richard Socher 0.48
2020. A simple In Adlanguage model for task-oriented dialogue. 2020. タスク指向対話のための簡素なアド言語モデル 0.57
vances in Neural Information Processing Systems, volume 33, pages 20179–20191. 神経情報処理システム (Neural Information Processing Systems, volume 33, page 20179–20191)。 0.67
Curran Associates, Inc. Curran Associates, Inc. 0.42
Minlie Huang, Xiaoyan Zhu, and Jianfeng Gao. Minlie Huang、Xiaoyan Zhu、Jianfeng Gao。 0.33
2020. Challenges in building intelligent open-domain dialog systems. 2020. インテリジェントなオープンドメインダイアログシステム構築の課題。 0.59
ACM Transactions on Information Systems (TOIS), 38:1 – 32. ACM Transactions on Information Systems (TOIS) 38:1 - 32。 0.86
Hang Jiang, Xianzhe Zhang, and Jinho D Choi. Hang Jiang、Xianzhe Zhang、Jinho D Choi。 0.67
2020. Automatic text-based personality recognition on monologues and multiparty dialogues using attentive networks and contextual embeddings (student In Proceedings of the AAAI Conference abstract). 2020. 注意ネットワークと文脈埋め込みを用いたモノローグと多人数対話におけるテキストに基づくパーソナリティ自動認識(aaai会議要約資料) 0.57
on Artificial Intelligence, volume 34, pages 13821– 13822. 人工知能では、巻34、巻13821-13822。 0.60
Diederik P. Kingma and Jimmy Ba. ディデリック・P・キングマとジミー・バ 0.45
2015. Adam: A In 3rd Intermethod for stochastic optimization. 2015. adam: 確率最適化のための第3のインターメソッド。 0.54
national Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. national conference on learning representations, iclr 2015, san diego, ca, usa, may 7-9, 2015 conference track proceedings (英語)
訳抜け防止モード: ICLR 2015, San Diego, CA, USA, International Conference on Learning Representations に参加して 2015年5月7日~9日, Conference Track Proceedings。
0.81
Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, and Shuzi Niu. yanran li, hui su, xiaoyu shen, wenjie li, ziqiang cao, そしてshuzi niuだ。 0.66
2017. DailyDialog: A manually labelled multi-turn dialogue dataset. 2017. DailyDialog: 手動でラベル付けされたマルチターン対話データセット。 0.52
In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 986–995, Taipei, Taiwan. 第8回自然言語処理国際共同会議(第1巻:長文論文)第986-995ページ、台北、台湾。 0.67
Asian Federation of Natural Language Processing. アジア自然言語処理連盟 0.53
Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, and Pascale Fung. zhaojiang lin、andrea madotto、genta indra winata、pascale fungなど。 0.49
2020. MinTL: Minimalist transfer learning for task-oriented dialogue systems. 2020. MinTL:タスク指向対話システムのためのミニマリスト変換学習 0.62
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3391–3405, Online. 自然言語処理における経験的手法(emnlp)に関する2020年の会議では、3391-3405ページがオンラインで公開されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 3391-3405頁。
0.68
Association for Computational Linguistics. Nicholas Lourie, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. 計算言語学会会員。 ニコラス・ルーリエ、ロナン・ル・ブラス、チャンドラ・バガヴァトゥラ、エジン・チョイ。 0.51
2021. Unicorn on rainbow: A universal commonsense reasoning model on a new multitask benchmark. 2021. Unicorn on Rain: 新しいマルチタスクベンチマークにおけるユニバーサルコモンセンス推論モデル。 0.56
AAAI. Kaixin Ma, Tomasz Jurczyk, and Jinho D. Choi. AAAI Kaixin Ma、Tomasz Jurczyk、Jinho D. Choi。 0.45
2018. Challenging reading comprehension on daily conversation: Passage completion on multiparty dialog. 2018. 日々の会話における理解の難解性:多人数対話の通路補完 0.55
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2039–2048, New Orleans, Louisiana. the association for computational linguistics: human language technologies, volume 1 (long papers), pages 2039–2048, ルイジアナ州ニューオーリンズ。
訳抜け防止モード: 計算言語学会北米支部2018年会議報告 : ヒューマン・ランゲージ・テクノロジー Volume 1 (Long Papers ), page 2039–2048, New Orleans, Louisiana.
0.58
Association for Computational Linguistics. S. Mehri, M. Eric, and D. Hakkani-Tur. 計算言語学会会員。 S. Mehri、M. Eric、D. Hakkani-Tur。 0.45
2020. language understanding ArXiv, 2020. 言語理解 ArXiv 0.51
task-oriented dialogue. Dialoglue: A natural benchmark for abs/2009.13570. タスク指向対話。 Dialoglue: abs/2009.13570の自然なベンチマーク。 0.59
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg S Corrado、Jeff Dean。 0.35
2013. Distributed representations of words and phrases and their compositionality. 2013. 単語と句の分散表現とその構成性 0.52
In Advances in Neural Information Processing Systems, volume 26. ニューラル・インフォメーション・プロセッシング・システムにおける第26巻。 0.45
Curran Associates, Inc. Curran Associates, Inc. 0.42
Subhabrata (Subho) Mukherjee, Xiaodong Liu, Guoqing Zheng, Saghar Hosseini, Hao Cheng, Greg Yang, Chris Meek, Ahmed H. Awadallah, and Jianfeng Gao. Subhabrata (Subho) Mukherjee, Xiaodong Liu, Guoqing Zheng, Saghar Hosseini, Hao Cheng, Greg Yang, Chris Meek, Ahmed H. Awadallah, Jianfeng Gao 0.39
2021. Clues: Few-shot learning evaluation in natural language understanding. 2021. ヒント:自然言語理解における数少ない学習評価。 0.58
In NeurIPS 2021. ニューロプス2021年。 0.52
Arghya Pal and Vineeth N Balasubramanian. arghya pal and vineeth n balasubramanian(英語) 0.55
2019. the Zero-shot IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2189–2198. 2019. Zero-shot IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 2189–2198 0.43
In Proceedings of task transfer. 訴訟の手続において タスク転送。 0.51
Sinno Jialin Pan and Qiang Yang. sinno jialin panとqiang yangだ。 0.56
2010. A survey on transfer learning. 2010. 転校学習に関する調査。 0.55
IEEE Transactions on Knowledge and Data Engineering, 22:1345–1359. IEEE Transactions on Knowledge and Data Engineering, 22:1345–1359。 0.41
Baolin Peng, Chengkun Li, Zhu Zhang, Chenguang Zhu, Jinchao Li, and Jianfeng Gao. baolin peng、chenkun li、zhu zhang、chenguang zhu、jinchao li、jianfeng gao。 0.53
2021a. Raddle: An evaluation benchmark and analysis platform for robust task-oriented dialog systems. 2021年。 raddle: 堅牢なタスク指向ダイアログシステムのための評価ベンチマークと分析プラットフォーム。 0.78
ArXiv, abs/2012.14666. arxiv、abs/2012.14666。 0.52
Baolin Peng, Chunyuan Li, Jinchao Li, Shahin Shayandeh, Lars Liden, and Jianfeng Gao. Baolin Peng, Chunyuan Li, Jinchao Li, Shahin Shayandeh, Lars Liden, Jianfeng Gao 0.35
2021b. Soloist: Building Task Bots at Scale with Transfer Learning and Machine Teaching. 2021年。 Soloist: トランスファーラーニングと機械学習による大規模タスクボットの構築。 0.71
Transactions of the Association for Computational Linguistics, 9:807–824. 計算言語学会(Association for Computational Linguistics, 9:807-824)の略。 0.50
Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. マシュー・E・ピーターズ、Waleed Ammar、Chandra Bhagavatula、Russell Power。 0.73
2017. Semi-supervised sequence tagging with bidirectional language models. 2017. 双方向言語モデルを用いた半教師付きシーケンスタギング 0.52
In Proceedings of the 55th Annual Meeting of 第55回年次大会に参加して 0.73
英語(論文から抽出)日本語訳スコア
the Association for Computational Linguistics (Volume 1: Long Papers), pages 1756–1765, Vancouver, Canada. the association for computational linguistics (第1巻: long papers) 1756-1765頁、カナダのバンクーバー。 0.74
Association for Computational Linguistics. Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 計算言語学会会員。 マシュー・e・ピーターズ、マーク・ノイマン、モヒト・アイイヤー、マット・ガードナー、クリストファー・クラーク、ケントン・リー、ルーク・ゼトルモイヤー。 0.56
2018. Deep contextualized word repIn Proceedings of the 2018 Conferresentations. 2018. 2018年コンフェレンテーションの深い文脈化された言葉の再現手順。 0.46
ence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227–2237, New Orleans, Louisiana. the association for computational linguistics: human language technologies, volume 1 (long papers), pages 2227-2237 (ルイジアナ州ニューオーリンズ)。 0.54
Association for Computational Linguistics. Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria, and Rada Mihalcea. 計算言語学会会員。 Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria, Rada Mihalcea 0.43
2019. Meld: A multimodal multi-party dataset for emotion recognition in conversations. 2019. Meld: 会話における感情認識のためのマルチモーダルなマルチパーティデータセット。 0.61
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 527– 536. 第57回計算言語学会年次総会において、527-536頁。 0.56
Soujanya Poria, Navonil Majumder, Devamanyu Hazarika, Deepanway Ghosal, Rishabh Bhardwaj, Samson Yu Bai Jian, Pengfei Hong, Romila Ghosh, Abhinaba Roy, Niyati Chhaya, Alexander Gelbukh, and Rada Mihalcea. Soujanya Poria, Navonil Majumder, Devamanyu Hazarika, Deepanway Ghosal, Rishabh Bhardwaj, Samson Yu Bai Jian, Pengfei Hong, Romila Ghosh, Abhinaba Roy, Niyati Chhaya, Alexander Gelbukh, Rada Mihalcea
訳抜け防止モード: soujanya poria, navonil majumder, devamanyu hazarika, deepanway ghosal rishabh bhardwaj, samson yu bai jian, pengfei hong, romila ghosh, アビナバ・ロイ(abhinaba roy)、ニヤティ・チャヤ(niyati chhaya)、アレクサンドル・ゲルバフ(alexander gelbukh)、ラダ・ミハルチャ(rada mihalcea)。
0.57
2021. Recognizing emotion cause in conversations. 2021. 会話における感情の認識。 0.58
Cognitive Computation. Lorien Y. Pratt, Jack Mostow, and Candace A. Kamm. 認知計算。 Lorien Y. Pratt、Jack Mostow、Candace A. Kamm。 0.36
1991. Direct transfer of learned information among In Proceedings of the Ninth Naneural networks. 1991. 第9回naneural networkの手続きにおける学習情報の直接転送 0.53
tional Conference on Artificial Intelligence - Volume 2, AAAI’91, page 584–589. Optial Conference on Artificial Intelligence - Volume 2, AAAI'91, page 584–589。 0.41
AAAI Press. aaai press所属。 0.47
Yada Pruksachatkun, ヤダ・プルクサチャット君 0.28
Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, and Samuel R. Bowman. Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, Samuel R. Bowman
訳抜け防止モード: ジェイソン・ファン、ハオクン・リウ、プ・モン・フトゥ、シャオイ・ジャン。 richard yuanzhe pang、clara vania、katharina kann、samuel r. bowman。
0.49
2020. Intermediate-task transfer learning with pretrained language models: When and why In Proceedings of the 58th Annual does it work? 2020. 事前学習された言語モデルによる中間タスク転送学習:第58回年次大会の開催時期と理由 0.52
Meeting of the Association for Computational Linguistics, pages 5231–5247, Online. the association for computational linguistics, pages 5231-5247, online (英語) 0.75
Association for Computational Linguistics. Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 計算言語学会会員。 アレク・ラドフォード、ジェフ・ウー、レウォン・チャイルド、デイヴィッド・ルーアン、ダリオ・アモデイ、イリヤ・サツバー。 0.51
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.51
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. コリン・ラフェル、ノーム・シャザー、アダム・ロバーツ、キャサリン・リー、シャラン・ナラン、マイケル・マテナ、ヤンチー・周、ウェイ・リー、ピーター・j・リュー。
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.92
2020. Exploring the limits of transfer learning with a unified text-totext transformer. 2020. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.62
Journal of Machine Learning Research, 21(140):1–67. journal of machine learning research、21(140):1-67。 0.74
Swabha Sebastian Ruder, Matthew E. Peters, TransSwayamdipta, and Thomas Wolf. Swabha Sebastian Ruder、Matthew E. Peters、TransSwayamdipta、Thomas Wolf。 0.39
2019. fer learning in natural language processing. 2019. 自然言語処理におけるフェル学習。 0.57
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials, pages 15–18, Minneapolis, Minnesota. アメリカ合衆国ミネソタ州ミネアポリスのコンピュータ言語学会(英語版)の2019年北米支部(英語版)の議事録(英語版)、15-18ページ(英語版)。 0.44
Association for Computational Linguistics. Ananya B. Sai, Akash Kumar Mohankumar, Siddhartha Arora, and Mitesh M. Khapra. 計算言語学会会員。 Ananya B. Sai, Akash Kumar Mohankumar, Siddhartha Arora, Mitesh M. Khapra 0.46
2020. Improving Dialog Evaluation with a Multi-reference Adversarial Dataset and Large Scale Pretraining. 2020. multi-reference adversarial dataset と large scale pretraining によるダイアログ評価の改善。 0.62
Transactions of the Association for Computational Linguistics, 8:810–827. 計算言語学会(Association for Computational Linguistics, 8:810-827)の略。 0.54
Kurt Shuster, Da Ju, Stephen Roller, Emily Dinan, YLan Boureau, and Jason Weston. カート・シュスター、ダジュ、スティーブン・ローラー、エミリー・ディナン、ylan boureau、ジェイソン・ウェストン。 0.55
2020. The dialogue dodecathlon: Open-domain knowledge and image grounded conversational agents. 2020. 対話ドデカトロン: オープンドメインの知識とイメージ基盤の会話エージェント。 0.56
In ACL. Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain, Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela, Arthur Szlam, and Jason Weston. aclで ジャック・アーネック、アンジェラ・ファン、シッダート・カラムチェティ、サーチ・ジャイン、サミュエル・ヒューモー、エミリー・ディナン、ティム・ロックテッシェル、ダウウェ・キエラ、アーサー・シラム、ジェイソン・ウェストン。
訳抜け防止モード: aclで Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela アーサー・スラム(Arthur Szlam)、ジェイソン・ウェストン(Jason Weston)。
0.65
2019. Learning to speak and act in In Proceedings a fantasy text adventure game. 2019. 話を学び、ファンタジーのテキストアドベンチャーゲームに参加します。 0.51
of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 673–683, Hong Kong, China. 2019年自然言語処理経験的手法に関する会議と第9回自然言語処理国際共同会議(emnlp-ijcnlp)は、香港の673-683ページである。 0.73
Association for Computational Linguistics. Tu Vu, Tong Wang, Tsendsuren Munkhdalai, Alessandro Sordoni, Adam Trischler, Andrew MattarellaMicke, Subhransu Maji, and Mohit Iyyer. 計算言語学会会員。 Tu Vu, Tong Wang, Tsendsuren Munkhdalai, Alessandro Sordoni, Adam Trischler, Andrew MattarellaMicke, Subhransu Maji, Mohit Iyyer 0.44
2020. Exploring and predicting transferability across nlp tasks. 2020. nlpタスク間の転送可能性の探索と予測。 0.52
In EMNLP. Gloria Wilcox. 略称はemnlp。 グロリア・ウィルコックス 0.41
1982. The feeling wheel. 1982. 感覚の車輪。 0.53
Transac- tional Analysis Journal, 12:4:274–276. Transac- 論文12:4:274-276より引用。 0.41
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander Rush
訳抜け防止モード: トーマス・ウルフ、lysandre、victor sanh、julien chaumond。 clement delangue, anthony moi, pierric cistac, tim rault, remi louf, モーガン・ファントウィッツ ジョー・デイヴィソン サム・シュライファー パトリック・フォン・プラトン clara ma, yacine jernite, julien plu, canwen xu, teven le scao, sylvain gugger, mariama drame, quentin lhoestなど。 アレキサンダー・ラッシュ
0.57
2020. Transformers: State-of-the-art natural language processing. 2020. Transformers: 最先端の自然言語処理。 0.61
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. 自然言語処理における経験的手法に関する2020年会議の議事録:システムデモ、38-45ページオンライン。 0.76
Association for Computational Linguistics. Zhengzhe Yang and Jinho D. Choi. 計算言語学会会員。 Zhengzhe YangとJinho D. Choi。 0.49
2019. FriendsQA: Open-domain question answering on TV show transcripts. 2019. friendsqa: テレビ番組でのオープンドメインの質問応答。 0.54
In Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, pages 188–197, Stockholm, Sweden. 第20回sigdial meeting on discourse and dialogue(英語版)第188-197頁(スウェーデン、ストックホルム)。 0.68
Association for Computational Linguistics. Qinyuan Ye, Bill Yuchen Lin, and Xiang Ren. 計算言語学会会員。 クインユアン・イェ、ビル・ユチェン・リン、チャン・レン。 0.47
2021. Crossfit: A few-shot learning challenge for crosstask generalization in nlp. 2021. Crossfit: nlpにおけるクロスタスクの一般化のための数ショットの学習課題。 0.52
In EMNLP. Dian Yu, Kai Sun, Claire Cardie, and Dong Yu. 略称はemnlp。 ディアン・ユ、カイ・サン、クレア・カーディ、ドン・ユ 0.38
2020. Dialogue-based relation extraction. 2020. 対話に基づく関係抽出 0.59
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 第58回計算言語学会年次大会を終えて 0.43
Sayyed M Zahiri and Jinho D Choi. さよなら、M ZahiriとJinho D Choi。 0.79
2018. Emotion detection on tv show transcripts with sequence-based In Workshops at convolutional neural networks. 2018. 畳み込みニューラルネットワークのワークショップにおけるシーケンスに基づくテレビ番組の感情検出 0.53
英語(論文から抽出)日本語訳スコア
the thirty-second aaai conference on artificial intelligence. 第33回 aaai conference on artificial intelligence 参加報告 0.67
Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas, Jitendra Malik, and Silvio Savarese. Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas, Jitendra Malik, Silvio Savarese
訳抜け防止モード: Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas ジテンドラ・マリク(Jitendra Malik)とシルヴィオ・サヴァレス(Silvio Savarese)。
0.79
2018. Taskonomy: Disentangling task transfer learning. 2018. taskonomy: タスク転送学習の分離。 0.59
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 0.37
Rowan Zellers, Yonatan Bisk, Roy Schwartz, and Yejin Choi. Rowan Zellers、Yonatan Bisk、Roy Schwartz、Yejin Choi。 0.69
2018. Swag: A large-scale adversarial dataset for grounded commonsense inference. 2018. Swag: グラウンドドコモンセンス推論のための大規模な逆データセット。 0.54
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における実証的手法に関する2018年会議(EMNLP)の開催報告 0.79
Ethan Zhou and Jinho D. Choi. ethan zhou と jinho d. choi。 0.66
2018. They exist! introducing plural mentions to coreference resolution and entity linking. 2018. コア参照解決とエンティティリンクに複数の言及を導入するのです。 0.48
In Proceedings of the 27th International Conference on Computational Linguistics, pages 24–34, Santa Fe, New Mexico, USA. 第27回計算言語学国際会議(27th International Conference on Computational Linguistics)は、アメリカ合衆国ニューメキシコ州サンタフェの24-34ページ。 0.67
Association for Computational Linguistics. Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 計算言語学会会員。 Yukun Zhu、Ryan Kiros、Rich Zemel、Ruslan Salakhutdinov、Raquel Urtasun、Antonio Torralba、Sanja Fidler。 0.59
2015. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. 2015. 本や映画を配する:映画を見て本を読むことで物語のような視覚的説明を目指す。 0.49
In The IEEE International Conference on Computer Vision (ICCV). IEEE International Conference on Computer Vision (ICCV) に参加。 0.38
Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Hui Xiong, and Qing He. フジーン・チュン(Fuzhen Zhuang)、ジユン・チー(Zhiyuan Qi)、キーン・ドゥアン(Keyu Duan)、ドンボ・チ(Dongbo Xi)、ヨン・チュ(Yongchun Zhu)、ヘンシュ・チュ(Hengshu Zhu)、ウイ・シオン(Hui Xiong)、清(Qing He)。 0.39
2021. A comprehensive survey on transfer learning. 2021. 転校学習に関する総合的な調査。 0.55
Proceedings of the IEEE, 109:43–76. ieeeの議事録 109:43-76。 0.46
英語(論文から抽出)日本語訳スコア
logue reasoning span extraction, dialogue reasoning multiple choice, and commonsense relation extraction. ローグ推論スパン抽出、複数選択による対話推論、コモンセンス関係抽出。 0.66
These tasks are created by annotating knowledge triplets on 31 relations that are either explicitly stated in the dialogue or that require commonsense reasoning using contextual information. これらのタスクは、対話で明示的に記述されるか、文脈情報を用いた常識推論を必要とする31のリレーションに関する知識トリプレットに注釈を付けて作成される。 0.59
In DNLI, the task is to determine whether a triplet is true or false given the dialogue. DNLIでは、対話によって三重項が真か偽かを決定する。
訳抜け防止モード: dnliでは 対話において三重項が真であるか偽であるかを判定する。
0.66
Given a knowledge triplet as <head, relation, tail>, the span extraction task is formulated as identifying the tail when given the head, relation, and dialogue for context. 頭, 関係, 尾といった知識が与えられた場合, スパン抽出タスクは, 頭, 関係, 文脈の対話を行う際に, 尾を識別するものとして定式化される。 0.73
The multiple choice task is motivated by the SWAG commonsense inference task (Zellers et al , 2018), given a head, relation, and conversation as context, the goal is to predict the tail of the relation from 4 possible choices. 複数の選択タスクは、SWAG Commonsense推論タスク(Zellers et al , 2018)によって動機付けられ、頭、関係、会話がコンテキストとして与えられると、4つの選択肢から関係のテールを予測することが目的である。 0.73
Finally, commonsense relation extraction is formulated as usual relation extraction tasks; given the head, tail, and conversation as context, the goal is to predict the correct relation out of 31 options. 最後に、コモンセンス関係抽出は通常の関係抽出タスクとして定式化され、頭、尾、会話を文脈として、31のオプションのうち正しい関係を予測することが目的である。 0.69
DailyDialog++ Sai et al (2020) present the DailyDialog++ dataset, where they aim to improve evaluation of response generation. DailyDialog++ Sai et al (2020)はDailyDialog++データセットを示し、応答生成の評価を改善することを目的としている。 0.67
They do so by collecting five relevant responses and five adversarially crafted irrelevant responses for each dialogue in their dataset, and we recycle their data for a new task called adversarial response selection. 彼らは、データセット内の各対話に対して、5つの関連する応答と5つの非関係な応答を収集し、そのデータを逆応答選択と呼ばれる新しいタスクに再利用する。
訳抜け防止モード: 彼らはそうします 関連する5つの応答と5つの逆の対応を データセットの各対話について 敵の反応選択という新しいタスクのために データをリサイクルします
0.79
Adversarial response selection is formulated as a multiple choice selection between a correct response, a randomly selected negative response, and an adversarial negative response. 逆応答選択は、正しい応答、ランダムに選択された負応答、および逆応答の複数の選択選択として定式化される。 0.77
A.2 Friends EmoryNLP Chen and Choi (2016) and Zhou and Choi (2018) provide annotations for character identification, a subtask of entity linking, where entity mentions in an utterance need to be matched to their correct entity. A.2 Friends EmoryNLP Chen and Choi (2016) と Zhou and Choi (2018) は、エンティティリンクのサブタスクである文字識別のためのアノテーションを提供する。
訳抜け防止モード: A.2 Friends EmoryNLP Chen and Choi (2016 ) と Zhou and Choi (2018 ) は文字識別のためのアノテーションを提供している。 エンティティリンクのサブタスク 発話中のエンティティの言及は、正しいエンティティにマッチする必要がある。
0.50
For this task there are seven possible entities: the six main characters and an "other" entity. このタスクには,7つの可能なエンティティ – 6つのメインキャラクタと“他の”エンティティがある。 0.74
Zahiri and Choi (2018) provide annotations on emotion recognition, with the 7 fine-grained emotions from the Feeling Wheel (Wilcox, 1982). Zahiri and Choi (2018) は感情認識のアノテーションを提供しており、Feeling Wheel (Wilcox, 1982) の7つのきめ細かい感情がある。 0.79
Ma et al (2018) present annotations for a subtask of reading comprehension, called passage completion. Ma et al (2018) は、通訳完了と呼ばれる読解のサブタスクのアノテーションを提示した。 0.54
In passage completion, given a dialogue and factual statement about the dialogue where character mentions are removed, the task is to fill in the blanks with the correct character from the dialogue. 文の完成において、文字の言及が削除された対話に関する対話と事実のステートメントが与えられた場合、そのタスクは、対話から正しい文字で空白を埋めることである。 0.59
This task is similar to a multiple choice task because entity choices are presented to the このタスクは、エンティティの選択が提示されるため、複数の選択タスクに似ている。 0.65
Figure 6: Utterance and dialogue length distributions in FETA. 図6:FETAにおける発話と対話長の分布。 0.79
A Dataset Details A.1 データセットの詳細 A.1 0.65
DailyDialog DailyDialog Along with the dialogues, Li et al (2017) provide annotations for emotion recognition, dialogue act classification, and topic classification. DailyDialog DailyDialog 対話とともに、Li et al (2017) は感情認識、対話行為分類、トピック分類のためのアノテーションを提供している。 0.79
RECCON Poria et al (2021) introduce the task of recognizing emotion causes in conversation and provide annotations for two subtasks: causal emotion span extraction and causal emotion entailment. RECCON Poria et al (2021)は、会話における感情の原因を認識するタスクを導入し、因果的感情が抽出にまたがる2つのサブタスクのアノテーションを提供する。 0.69
Recognizing the cause behind emotions is an important aspect of developing conversational agents that can respond appropriately and these tasks test that ability. 感情の原因を認識することは、適切な応答が可能な会話エージェントを開発する上で重要な側面であり、これらのタスクはその能力をテストする。
訳抜け防止モード: 感情の原因を認識する 重要な側面です 適切に反応できる会話エージェントを開発し、これらのタスクがその能力をテストします。
0.71
Both tasks assume that the emotion of an utterance is already known and require a model to identify the evidence or cause of the given emotion. どちらのタスクも、発話の感情は既に知られており、与えられた感情の証拠や原因を特定するモデルが必要であると仮定している。
訳抜け防止モード: 両方のタスクは、発話の感情が既に知られていると仮定する モデルが必要です 与えられた感情の証拠や原因を 特定することです
0.69
In causal emotion span extraction, the model is given input as "The target utterance is <Ut>. The evidence utterance is <Ue>. What is the causal span from evidence in the context that is relevant to the target utterance’s emotion <Et>?". 因果感情スパン抽出では、モデルに「対象発話は<ut>である。証拠発話は<ue>である。対象発話の感情に関連する文脈における証拠からの因果スパンとは何か?」と入力される。 0.63
On the other hand, if the conversation history up to utterance Ut is H(Ut), then the task of causal emotion entailment is to classify the triple (Ut,Ue,H(Ut)) as entailment or not entailment. 一方、発話utまでの会話履歴がh(ut)である場合、因果感情を包含するタスクはトリプル(ut,ue,h(ut))を包含として分類するか、包含しないかである。
訳抜け防止モード: 一方、もしも 発話Utまでの会話履歴はH(Ut)である )では,因果的感情の包含の課題は,その課題である。 三重項 (Ut, Ue, H(Ut ) ) を包含の有無で分類する。
0.73
In this case, entailment means that the emotion expressed in the target utterance, Ut, is caused by the evidence utterance, Ue. この場合、包含は、対象発話(ut)で表される感情が証拠発話(ue)によって引き起こされることを意味する。 0.61
CIDER Ghosal et al (2021) provide annotations for four tasks designed to explore commonsense inference and reasoning in dialogue: dialoguelevel natural language inference (DNLI), dia- CIDER Ghosal et al (2021)は、対話における常識推論と推論:対話レベル自然言語推論(DNLI)、ダイアログの4つのタスクに対してアノテーションを提供する。 0.75
英語(論文から抽出)日本語訳スコア
C Expanded Single-Source Results Cがシングルソースの結果を拡大 0.50
model, but because there are varying number of options in each dialogue, it is formulated as a span extraction that is evaluated based on accuracy. モデルであるが、各対話には様々な選択肢があるため、精度に基づいて評価されるスパン抽出として定式化される。 0.76
Yang and Choi (2019) introduce annotations for question answering. Yang and Choi (2019) では質問応答のためのアノテーションを紹介している。 0.64
The answers to questionanswer pairs can either be a speaker name or exist as a span within the dialogue, and multiple spans may be correct. 質問応答対に対する回答は話者名か対話内のスパンとして存在し、複数のスパンが正しいかもしれない。 0.71
Jiang et al (2020) present the personality detection task by annotating speakers with five traits: agreeableness, conscientiousness, extraversion, openness, and neuroticism. Jiang et al (2020) は、話者に同意性、良心性、外向性、開放性、神経症という5つの特徴を付加することで人格検出タスクを提示した。
訳抜け防止モード: Jiang et al (2020 )はパーソナリティ検出タスクを提示する 5つの特徴:一致性、良心性、外向性、開放性、神経症。
0.75
The goal of the task is to correctly identify whether a given character from a dialogue either has or does not have each of the five traits. タスクの目標は、対話から与えられた文字が5つの特徴を持つかどうかを正確に識別することである。 0.69
DialogRE Yu et al (2020) introduce a relation extraction dataset annotated with 36 different relations. DialogRE Yu et al (2020)は36の異なる関係を注釈付けした関係抽出データセットを導入した。 0.67
Their dataset anonymizes speakers which allows for an entity linking relation called "per:alternative_name ". 彼らのデータセットは話者を匿名化し、"per:alternative_name "と呼ばれるエンティティリンク関係を可能にする。 0.54
However, our version of the Friends dataset is named and so we remove this relation from our data. しかし、friendsデータセットのバージョンは名前付きなので、この関係をデータから削除します。 0.73
This task is similar to the relation extraction from DailyDialog, however the relations in DailyDialog are commonsense relations, and the relations in Friends are focused on information about entities. この課題は、DailyDialogから抽出された関係と似ているが、DailyDialogにおける関係は常識的な関係であり、Friendsにおける関係はエンティティに関する情報に焦点を当てている。
訳抜け防止モード: この課題はDailyDialogの関係抽出と似ているが、DailyDialogの関係は常識的関係である。 友人関係は、エンティティに関する情報に焦点を当てている。
0.64
MELD Poria et al (2019) provide additional annotations for emotion recognition, with only 22.2% dialogue overlap with Zahiri and Choi (2018)’s dialogues. meld poria et al (2019) は感情認識のための追加のアノテーションを提供しており、zahiri と choi (2018) の対話と22.2%の対話が重複している。 0.63
Additionally, while both use 7 total emotions, Poria et al (2019) use 2 different emotions from Zahiri and Choi (2018). さらに、両者とも合計7つの感情を使用するが、Poria et al (2019) はザヒリとチョイ (2018) の2つの異なる感情を使用する。 0.64
B Implementation Details For our experiments, we use the pretrained model implementations from the HuggingFace Transformers library (Wolf et al , 2020), where the bert-baseuncased model has 110M parameters, GPT-2 has 124M parameters, and T5-base has 223M parameters. B 実装の詳細 実験では,HuggingFace Transformersライブラリ(Wolf et al , 2020)の事前訓練モデル実装を用いて,bert-baseuncasedモデルが110Mパラメータ,GPT-2が124Mパラメータ,T5-baseが223Mパラメータを持つ。 0.85
We use the Adam optimizer (Kingma and Ba, 2015) with a batch size of 60 and run a learning rate sweep across {3×10-6, 1×10-5,3×10-5,1×10-4} during the pre-training phase, finding that 3×10-5 worked well across all models. 我々は、Adam Optimizationr (Kingma and Ba, 2015) を60のバッチサイズで使用し、事前トレーニングフェーズ中に{3×10-6, 1×10-5,3×10-5,1×10-4} で学習率スイープを実行し、3×10-5がすべてのモデルでうまく動作することを発見した。 0.59
In all experiments we utilize validation-based best model selection, and train models for 30 epochs on DailyDialog tasks and 20 epochs on Friends tasks. すべての実験では、バリデーションベースのベストモデル選択と、DailyDialogタスクで30時間、Friendsタスクで20時間、トレーニングモデルを使用します。 0.64
英語(論文から抽出)日本語訳スコア
Figure 7: Aggregate task transfer performance on DailyDialog. 図7: DailyDialogのタスク転送パフォーマンスの集約。 0.83
英語(論文から抽出)日本語訳スコア
Figure 8: Aggregate task transfer performance on Friends. 図8: 友達のタスク転送パフォーマンスを集約する。 0.85
英語(論文から抽出)日本語訳スコア
Task Emotion Recognition Dialogue Act Classification Topic Classification Causal Emotion Span Extraction Causal Emotion Entailment Dialogue-level NLI Dialogue Reasoning Span Extraction Dialogue Reasoning Multiple Choice Commonsense Relation Extraction Adversarial Response Selection タスク感情認識行為分類 トピック分類 因果感情のスパン抽出 因果感情の抽出 因果感情の包含 対話レベル nli 対話推論 スパン抽出対話推論 複数選択コモンセンス関係抽出 逆応答選択 0.76
Prompt emotion: dialogue act: topic: question: <question> answer: context: <premise> causal emotion entailment: <hypothesis> context: <premise> entailment: <hypothesis> question: <question> answer: question: <question> <options> The correct option is The relation between <head> and <tail> is question: <question> <options> The correct option is Prompt emotion: topic: question: question: question: <question> answer: context: <premises> causal emotion entailment: <hypothesis> context: <premises> entailment: <hypothesis> question: <question> answer: question: <question> <options> 正しいオプションは <head> と <tail> の関係は?
訳抜け防止モード: 衝動の感情 : 対話行動 : 課題 : 質問> 回答 : コンテキスト : <前提> 因果的感情包含 : <前提> コンテキスト : <前提> 内容 : <仮説> 質問 : <質問> 質問 : <質問> > 選択肢> 正しい選択肢は<頭> の関係である。 and < tail > is question : < question > < options > The correct option is
0.67
Table 4: Prompts for FETA-DailyDialog tasks. 表4: FETA-DailyDialogタスクのプロンプト。 0.76
All prompts start with "context: <context>", but we leave this out due to repetitiveness and space. すべてのプロンプトは"context: <context>"から始まります。
訳抜け防止モード: すべてのプロンプトは"context : < context > ", "から始まる。 しかし、反復性と空間のため、私たちはこれを除外します。
0.67
Task Emotion Recognition (Emory) Reading Comprehension Character Identification Question Answering Personality Detection Relation Extraction Emotion Recognition (MELD) タスク感情認識(エモリー) パーソナリティ検出関係抽出感情認識(MELD)を問う包括的文字識別質問の読解 0.82
Prompt emotion: question: <question> out of <entities> [PLACEHOLDER] is out of <options>, <mention> in the phrase <phrase> refers to question: <question> answer: <entity> is <characteristic> <head> has the following relations with <tail> emotion: prompt emotion: question: <entities> [placeholder] is out of <options>, <mention> in the phrase <phrase> used to question: <question> answer: <entity> is <characteristic> <head> has the following relations with <tail> emotion: <question> answer: <entity> is <characteristic> <head>
訳抜け防止モード: Prompt emotion : question : < question > out of < entity > [ PLACEHOLDER ] is out of < options >, 語句>の<言及>は疑問を指す。 : <質問> > 回答 : <実体> は<特徴> <頭部> は<尾> > 感情と以下の関係を持つ :
0.74
Table 5: Prompts for FETA-Friends tasks. 表5: FETA-Friendsタスクのプロンプト。 0.80
All prompts start with "context: <context>", but we leave this out due to repetitiveness and space. すべてのプロンプトは"context: <context>"から始まります。
訳抜け防止モード: すべてのプロンプトは"context : < context > ", "から始まる。 しかし、反復性と空間のため、私たちはこれを除外します。
0.67
Figure 9: Score ∆ by source task type. 図9: ソースタスクの型によってスコアする。 0.71
D Expanded Multi-Source Results D 拡張マルチソース結果 0.85
英語(論文から抽出)日本語訳スコア
T5 M M F / . T5M M F / . 0.42
3 0 0 . 1 5 4 3 0 0 . 1 5 4 0.43
. 3 3 0 . 1 7 7 . 3 3 0 . 1 7 7 0.42
. 2 9 9 . 2 9 3 . 2 9 9 . 2 9 3 0.43
. 3 1 0 . 2 0 8 . 3 1 0 . 2 0 8 0.43
P F / . 3 0 8 P F / . 3 0 8 0.43
1 . 0 8 1 . 1 . 0 8 1 . 0.43
4 8 1 . 8 8 4 8 1 . 8 8 0.43
GPT-2 M F M GPT-2 M F M 0.41
/ P F / BERT M M F / P F / BERT M M F 0.43
/ P F / T a r g e t / P F / T a r g e t 0.43
. 3 4 3 . 1 3 0 . 3 4 3 . 1 3 0 0.43
. 0 9 3 . 2 5 8 . 0 9 3 . 2 5 8 0.43
. 1 8 6 . 0 4 6 . 1 8 6 . 0 4 6 0.43
. 2 0 1 . 1 5 9 . 2 0 1 . 1 5 9 0.42
. 1 1 4 . 2 0 4 . 1 1 4 . 2 0 4 0.42
. 0 1 5 . 0 1 7 . 0 1 5 . 0 1 7 0.43
. 1 7 0 . 0 8 9 . 1 7 0 . 0 8 9 0.42
0 . 3 . 1 4 0 0 . 3 . 1 4 0 0.43
. 0 8 6 . 0 4 3 . 0 8 6 . 0 4 3 0.42
D A C A R S D A C A R S 0.42
C E E c e e である。 0.49
. 2 3 8 . 1 2 6 . 2 3 8 . 1 2 6 0.43
. 0 5 9 . 2 0 1 . 0 5 9 . 2 0 1 0.42
. 0 9 6 . 0 3 5 . 0 9 6 . 0 3 5 0.43
A v . D R S E v . D R S E 0.36
T o p3 . 1 8 8 T o p3 . 1 8 8 0.44
. 1 0 0 . 1 2 8 . 1 0 0 . 1 2 8 0.42
. 3 1 1 . 2 0 4 . 3 1 1 . 2 0 4 0.42
. 0 9 9 . 3 6 2 . 0 9 9 . 3 6 2 0.43
. 3 7 3 0 . . 3 7 3 0 . 0.43
8 3 S o u r c e 8 3 s o u r c e である。 0.57
M u l t i - m u です。 l t i の略。 0.48
. 5 5 9 . 8 8 3 . 5 5 9 . 8 8 3 0.43
. 2 5 2 . 0 4 6 . 2 5 2 . 0 4 6 0.43
. 0 8 1 . 3 6 5 . 0 8 1 . 3 6 5 0.42
. 2 6 6 . 0 5 3 . 2 6 6 . 0 5 3 0.42
. 0 3 5 A R S . 0 3 5 A R S 0.42
4 . 1 0 5 . 4 . 1 0 5 . 0.43
8 3 5 . 5 3 8 3 5 . 5 3 0.42
. 0 3 2 1 . . 0 3 2 1 . 0.43
7 3 . 0 0 0 7 3 . 0 0 0 0.42
0 . 4 0 0 . 0 . 4 0 0 . 0.43
3 2 0 . 3 9 3 2 0 . 3 9 0.43
D R M C 2 . D R M C 2 . 0.42
7 8 0 . 5 5 7 8 0 . 5 5 0.43
8 . 6 0 1 . 8 . 6 0 1 . 0.42
9 2 0 . 9 4 9 2 0 . 9 4 0.43
6 . 9 9 3 . 6 . 9 9 3 . 0.43
5 5 1 . 0 5 5 5 1 . 0 5 0.43
0 . 8 8 E R 0 . 8 8 E R 0.42
4 . 1 6 5 . 4 . 1 6 5 . 0.43
0 7 5 . 5 5 0 7 5 . 5 5 0.43
0 . 5 9 1 . 0 . 5 9 1 . 0.43
1 6 3 . 5 5 1 6 3 . 5 5 0.43
2 . 2 0 0 . 2 . 2 0 0 . 0.42
6 3 0 . 0 5 6 3 0 . 0 5 0.43
A v . T o p3 略称はV。 T o p3 0.50
2 . 9 6 4 . 2 . 9 6 4 . 0.43
1 1 7 . 5 0 1 1 7 . 5 0 0.43
0 . 6 8 0 . 0 . 6 8 0 . 0.42
1 8 3 . 3 9 1 8 3 . 3 9 0.43
4 . 4 8 2 . 4 . 4 8 2 . 0.42
2 0 1 . 4 8 2 0 1 . 4 8 0.42
S o u r c e s o u r c e である。 0.71
M u l t i - m u l t i の略。 0.54
2 . 2 2 8 . 2 . 2 2 8 . 0.42
8 1 2 . 7 0 8 1 2 . 7 0 0.42
1 . 2 9 0 . 1 . 2 9 0 . 0.42
5 8 0 . 7 7 5 8 0 . 7 7 0.42
1 . 2 1 R C 1 . 2 1 R C 0.42
D N L I 0 . D N L I 0 . 0.43
0 6 1 . 8 4 0 6 1 . 8 4 0.43
1 . 4 6 0 . 1 . 4 6 0 . 0.42
3 0 0 . 7 0 3 0 0 . 7 0 0.43
6 . 6 9 0 . 6 . 6 9 0 . 0.43
5 2 0 . 2 2 5 2 0 . 2 2 0.42
1 . 5 9 5 . 1 . 5 9 5 . 0.43
0 8 1 . 0 3 0 8 1 . 0 3 0.43
0 . 2 6 2 . 0 . 2 6 2 . 0.42
7 3 0 . 7 8 7 3 0 . 7 8 0.42
1 . 4 8 0 . 1 . 4 8 0 . 0.42
7 6 Q A 1 . 7 6 Q A 1 . 0.43
0 9 0 . 4 8 0 9 0 . 4 8 0.42
0 . 2 7 1 . 0 . 2 7 1 . 0.42
1 5 R E C I 1 5 r.e. C I 0.35
0 . 6 4 0 . 0 . 6 4 0 . 0.43
6 4 1 . 5 0 6 4 1 . 5 0 0.43
6 . 8 6 0 . 6 . 8 6 0 . 0.43
4 7 1 . 7 0 4 7 1 . 7 0 0.42
0 . 6 1 0 . 0 . 6 1 0 . 0.42
8 4 0 . 1 6 8 4 0 . 1 6 0.43
A v . T o p3 略称はV。 T o p3 0.50
0 . 4 0 2 . 0 . 4 0 2 . 0.43
1 3 0 . 7 1 1 3 0 . 7 1 0.42
8 . 8 1 1 . 8 . 8 1 1 . 0.42
7 5 5 . 9 5 7 5 5 . 9 5 0.43
0 . 9 5 1 . 0 . 9 5 1 . 0.43
3 8 2 . 2 7 3 8 2 . 2 7 0.43
S o u r c e s o u r c e である。 0.71
M u l t i - m u l t i の略。 0.54
. 0 0 2 . 1 1 0 . 0 0 2 . 1 1 0 0.42
. 0 0 3 . 1 3 1 . 0 0 3 . 1 3 1 0.43
. 1 5 9 . 0 1 2 . 1 5 9 . 0 1 2 0.42
. 3 0 4 . 1 8 9 . 3 0 4 . 1 8 9 0.42
. 0 5 8 P D . 0 5 8 p d である。 0.43
. 0 4 2 . 0 8 2 . 0 4 2 . 0 8 2 0.43
. 0 1 9 . 0 8 4 . 0 1 9 . 0 8 4 0.43
. 1 0 0 . 1 7 6 . 1 0 0 . 1 7 6 0.42
. 3 6 4 . 2 9 8 . 3 6 4 . 2 9 8 0.43
. 0 6 3 . 0 2 7 . 0 6 3 . 0 2 7 0.43
. 0 3 1 . 0 8 3 . 0 3 1 . 0 8 3 0.43
. 1 1 4 . 0 6 6 . 1 1 4 . 0 6 6 0.43
. 4 4 9 . 2 6 2 . 4 4 9 . 2 6 2 0.42
. 0 2 8 . 0 0 8 . 0 2 8 . 0 0 8 0.43
E R R E . E R r.e. . 0.35
0 0 6 . 0 7 3 0 0 6 . 0 7 3 0.42
. 0 1 6 . 0 9 9 . 0 1 6 . 0 9 9 0.42
. 1 2 4 . 0 7 7 . 1 2 4 . 0 7 7 0.43
. 3 7 2 . 2 5 0 . 3 7 2 . 2 5 0 0.43
. 0 0 7 0 . . 0 0 7 0 . 0.43
2 8 0 . 8 1 2 8 0 . 8 1 0.42
0 . 3 2 1 . 0 . 3 2 1 . 0.42
9 4 3 . 7 0 9 4 3 . 7 0 0.43
4 . 6 7 3 . 4 . 6 7 3 . 0.43
1 7 1 . 3 6 1 7 1 . 3 6 0.43
0 . 9 2 A v 0 . 9 2 v 0.36
. T o p3 S o u r c e . T o p3 s o u r c e である。 0.53
M u l t i - m u です。 l t i の略。 0.48
Q A Table 6: Results from the multi-source experiment, where we use the top-3 source tasks in a multi-source task transfer setting. Q A 表6: マルチソースのタスク転送設定でトップ3のソースタスクを使用するマルチソース実験の結果。 0.56
We include individual scores from all 3 top-3 source tasks and include their average score as a comparison. トップ3のソースタスクから個々のスコアを抽出し、平均スコアを比較として含みます。 0.70
Multi-source experiments that improve over the top-3 average are underlined. トップ3平均よりも改善するマルチソース実験が下線で示されている。 0.58
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。