Task transfer, transferring knowledge contained in related tasks, holds the
promise of reducing the quantity of labeled data required to fine-tune language
models. Dialogue understanding encompasses many diverse tasks, yet task
transfer has not been thoroughly studied in conversational AI. This work
explores conversational task transfer by introducing FETA: a benchmark for
few-sample task transfer in open-domain dialogue. FETA contains two underlying
sets of conversations upon which there are 10 and 7 tasks annotated, enabling
the study of intra-dataset task transfer; task transfer without domain
adaptation. We utilize three popular language models and three learning
algorithms to analyze the transferability between 132 source-target task pairs
and create a baseline for future work. We run experiments in the single- and
multi-source settings and report valuable findings, e.g., most performance
trends are model-specific, and span extraction and multiple-choice tasks
benefit the most from task transfer. In addition to task transfer, FETA can be
a valuable resource for future research into the efficiency and
generalizability of pre-training datasets and model architectures, as well as
for learning settings such as continual and multitask learning.
Yi-Lin Tuan1 Pegah Jandaghi2 Connor Pryor3 Luke Yoffe1
Yi-Lin Tuan1 Pegah Jandaghi2 Connor Pryor3 Luke Yoffe1
0.35
Alon Albalak1 Deepak Ramachandran4 Lise Getoor3 1University of California, Santa Barbara
アロンアルバラク1 deepak ramachandran4 lise getoor3 カリフォルニア大学サンタバーバラ校
0.63
Jay Pujara2 William Yang Wang1 2University of Southern California
ジェイ・プジャラ2 ウィリアム・ヤン・ワング1 南カリフォルニア大学
0.61
3University of California, Santa Cruz
カリフォルニア大学サンタクルーズ校3大学
0.68
4Google Research
4Googleリサーチ
0.82
alon_albalak@ucsb.ed u
alon_albalak@ucsb.ed u
0.29
2 2 0 2 y a M 2 1
2 2 0 2 y a m 2 1 である。
0.52
] L C . s c [ 1 v 2 6 2 6 0
]LC。 sc [ 1 v 2 6 2 6 0
0.30
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract Task transfer, transferring knowledge contained in related tasks, holds the promise of reducing the quantity of labeled data required to fine-tune language models.
Dialogue understanding encompasses many diverse tasks, yet task transfer has not been thoroughly studied in conversational AI.
対話理解は多くの多様なタスクを含んでいるが、タスク転送は会話型AIでは十分に研究されていない。
0.57
This work explores conversational task transfer by introducing FETA: a benchmark for FEw-sample TAsk transfer in open-domain dialogue.
本研究では、オープンドメイン対話におけるFEw-sample TAsk転送のベンチマークであるFETAを導入することにより、対話型タスク転送を検討する。 訳抜け防止モード: この研究は会話によるタスク伝達を探求する FETAの導入 FEw - オープンドメイン対話におけるサンプルTAsk転送のベンチマーク。
0.67
FETA contains two underlying sets of conversations upon which there are 10 and 7 tasks annotated, enabling the study of intra-dataset task transfer; task transfer without domain adaptation.
We utilize three popular language models and three learning algorithms to analyze the transferability between 132 source-target task pairs and create a baseline for future work.
We run experiments in the single- and multi-source settings and report valuable findings, e g , most performance trends are model-specific, and span extraction and multiple-choice tasks benefit the most from task transfer.
In addition to task transfer, FETA can be a valuable resource for future research into the efficiency and generalizability of pre-training datasets and model architectures, as well as for learning settings such as continual and multitask learning.
1 Introduction 1 Improving sample efficiency through transfer learning has been a long-standing challenge in the machine learning and natural language processing communities (Pratt et al , 1991; Ando and Zhang, 2005).
はじめに 1 トランスファー学習によるサンプル効率の向上は、機械学習と自然言語処理コミュニティにおいて長年の課題となっている(pratt et al , 1991; ando and zhang, 2005)。
0.72
Dialogue data requires multiple cohesive turns with consistent speaker personalities (Urbanek et al , 2019; Huang et al , 2020), creating a challenge for data collection and motivating the development of techniques that improve sample efficiency in conversational AI (Lin et al , 2020).
対話データには、一貫した話者のパーソナリティー(urbanek et al , 2019; huang et al , 2020)と複数の結束的なターンが必要であり、データ収集の課題を作り、会話型ai(lin et al , 2020)のサンプル効率を改善する技術の開発を動機付ける。 訳抜け防止モード: 対話データは、一貫した話者パーソナリティ(Urbanek et al)を持つ複数の凝集ターンを必要とする。 2019年; Huangら、2020年 - データ収集に挑戦 技術の発展を動機づけ 会話型AI(Lin et al, 2020)のサンプル効率を改善する。
0.81
1All code and data for FETA are available through the Transfer Learning in Dialogue Benchmarking Toolkit (Albalak, 2022) at github.com/alon-alba lak/TLiDB.
FETAのすべてのコードとデータは、github.com/alon-alba lak/TLiDBのTransfer Learning in Dialogue Benchmarking Toolkit (Albalak, 2022)を通じて入手できる。
0.67
Figure 1: Task Transfer Performance on FETADailyDialog.
図1: FETADailyDialogでのタスク転送のパフォーマンス。
0.79
Computed transfer performance is demonstrated by arrows leaving from source tasks and entering target tasks.
演算転送性能は、元タスクから離れ、ターゲットタスクに入る矢印によって実証される。
0.61
Strength of the transfer is denoted by thickness and color of edges.
転送の強さは、エッジの厚さと色によって示される。
0.72
Furthermore, dialogue understanding tasks require a shared knowledge of semantics, pragmatics, human behavior, and commonsense, making dialogue an area of study that can benefit greatly from a deeper understanding of transfer learning.
Two essential transfer learning settings, namely domain adaptation and task transfer, have been studied on language tasks (Ruder et al , 2019).
ドメイン適応とタスク転送という2つの重要なトランスファー学習設定が言語タスクについて研究されている(ruder et al , 2019)。
0.70
While domain adaptation has been studied in taskoriented dialogue (Mehri et al , 2020) , task transfer has been studied with less rigor in conversational AI.
タスク指向対話(Mehri et al , 2020)ではドメイン適応が研究されているが、会話型AIではより厳密なタスク転送が研究されている。
0.62
Prior studies of task transfer in dialogue consider only 2-4 tasks, focus on multitask learning, and do not compare learning algorithms (HosseiniAsl et al , 2020; Peng et al , 2021b).
対話におけるタスク伝達の先行研究は、2-4タスクのみを考慮し、マルチタスク学習に焦点を当て、学習アルゴリズムを比較しない(HosseiniAsl et al , 2020; Peng et al , 2021b)。
0.73
Prior studies have focused on cross-dataset task transfer, gathering tasks annotated on disjoint datasets (Vu et al , 2020; Ye et al , 2021), but this can lead to improvements in domain adaptation being confounded as improvements in task transfer.
以前の研究は、データセット間のタスク転送、非結合データセットに注釈付けされたタスクの収集(Vu et al , 2020; Ye et al , 2021)に重点を置いていたが、これはタスク転送の改善としてまとめられたドメイン適応の改善につながる可能性がある。
0.63
A precise study of task transfer should be on a sin-
タスク転送の正確な研究は、罪にあるべき-
0.82
英語(論文から抽出)
日本語訳
スコア
gle data source in an intra-dataset transfer setting, as in Zamir et al (2018).
zamir et al (2018)のように、データセット内転送設定におけるgleデータソース。
0.67
Additionally, previous studies focus on learning algorithms and use only a single language model architecture (Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022), which may lead to a narrow understanding.
さらに、以前の研究では、学習アルゴリズムに焦点をあて、単一の言語モデルアーキテクチャ(Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022)のみを使用し、より狭い理解につながる可能性がある。
0.81
To the best of our knowledge, this is the first rigorous study on task transfer in dialogue and the most extensive intra-dataset task transfer study in NLP.
FETA datasets cover a variety of properties (dyadic vs. multi-party, anonymized vs. recurring speaker, varying dialogue lengths) and task types (utterance-level classification, dialogue-level classification, span extraction, multiple-choice), and maintain a wide variety of data quantities.
fetaデータセットは、さまざまな特性(dyadic vs. multiparty, anonymized vs. recurring speaker, various dialogue lengths)とタスクタイプ(発話レベル分類、対話レベル分類、スパン抽出、マルチチョイス)をカバーし、さまざまなデータ量を維持する。
0.79
We study task transfer on FETA by comparing three task transfer algorithms and three commonly used language models in single-source and multisource settings.
(i) Trends are largely model-dependent, a finding that previous works have not discussed.
(i)傾向は主にモデルに依存しており、以前の研究が議論されていないこと。
0.66
(ii) Out of all task types, span extraction tasks gain the most as a target, especially with few samples.
(ii)全てのタスクタイプのうち、抽出タスクがターゲットとして最も多くなり、特にサンプルが少ない。
0.71
(iii) Adding source tasks does not uniformly improve over a single source task, motivating a better understanding of the complex relationship between source and target tasks.
FETA provides a resource for various future studies, e g , on the generalizability of model architectures, and pre-training datasets that enable efficient transfer.
• Extensive experimentation on FETA in both the single-source and multi-source settings, and an in-depth analysis comparing models, learning algorithms, sample sizes, and task types, finding new and non-intuitive results.
• A readily extensible transfer learning framework that allows for rapid experimentation and an online leaderboard to encourage deeper research into task transfer.
2 Related Work Transfer Learning in NLP Prior works on transfer learning in NLP have studied a wide variety of topics, including domain adaptation (Ben-David et al , 2010), multitask learning (Collobert and Weston, 2008; Bingel and Søgaard, 2017), and learning representations of words (Brown et al , 1992; Mikolov et al , 2013; Peters et al , 2017, 2018).
2 関連作業 NLPにおけるトランスファーラーニング (Transfer Learning in NLP) では、ドメイン適応 (Ben-David et al , 2010)、マルチタスク学習 (Collobert and Weston, 2008; Bingel and Søgaard, 2017)、単語の学習表現 (Brown et al , 1992; Mikolov et al , 2013; Peters et al , 2017) など、さまざまなトピックが研究されている。
0.79
More recently, DialoGLUE (Mehri et al , 2020) and RADDLE (Peng et al , 2021a) study domain adaptation for language understanding tasks in taskoriented dialogue.
最近では、DialoGLUE(Mehri et al , 2020)とRADDLE(Peng et al , 2021a)が、タスク指向対話における言語理解タスクのドメイン適応を研究している。 訳抜け防止モード: 最近, DialoGLUE (Mehri et al, 2020) RADDLE (Peng et al, 2021a ) はタスク指向対話における言語理解タスクのドメイン適応について検討した。
0.78
Shuster et al (2020) focuses on multitasking in dialogue response generation across multiple datasets.
Shuster et al (2020)は、複数のデータセットにわたる対話応答生成におけるマルチタスクに焦点を当てている。
0.59
Similar to this work, Pruksachatkun et al (2020) study task transfer, although they study cross-dataset task transfer in general NLP tasks.
この研究と同様に、Pruksachatkun et al (2020)は、一般的なNLPタスクにおいて、クロスデータセットタスク転送を研究するが、タスク転送を研究する。
0.61
Lourie et al (2021) also study task transfer, but they focus on the T5 model and a suite of commonsenseQA datasets.
Lourie et al (2021)もタスク転送を研究しているが、T5モデルとCommonsenseQAデータセットのスイートに焦点を当てている。
0.67
Task Transfer in Dialogue Task transfer has been applied in Task-Oriented Dialogue (TOD) settings but never rigorously studied.
For example, Hosseini-Asl et al (2020) and Lin et al (2020) develop multitask models to perform 2-4 TOD tasks but do not aim to analyze the efficiency of models or learning algorithms for task transfer.
例えば、hosseini-asl et al (2020) と lin et al (2020) は 2-4 tod タスクを実行するマルチタスクモデルを開発しているが、タスク転送のためのモデルや学習アルゴリズムの効率を分析することを意図していない。
0.73
Intra-dataset Task Transfer Intra-dataset task transfer has been studied in computer vision applications (Zamir et al , 2018; Pal and Balasubramanian, 2019), but to our best knowledge it has never been studied in NLP.
データベース内タスク転送 タスク転送はコンピュータビジョンアプリケーション(Zamir et al , 2018, Pal and Balasubramanian, 2019)で研究されているが、我々の知る限り、NLPでは研究されていない。
0.64
3 FETA In this section, we briefly define intra-dataset task transfer, the problem setting of FETA.
3FETA 本稿では,FETAの課題設定である,データセット内タスク転送を簡潔に定義する。
0.53
Then, we introduce FETA, our benchmark for few-sample task transfer in open-domain dialogue.
10750 Mult Ch Acc 1912 Utt Cls 2284 Mult Ch Acc 7803 Utt Cls M/m-F1 1937 Span Ex T-F1,EM 110 Dial Cls Acc 1188 Dial Cls m-F1 1247 Utt Cls
10750 Mult Ch Acc 1912 Utt Cls 2284 Mult Ch Acc 7803 Utt Cls M/m-F1 1937 Span Ex T-F1,EM 110 Dial Cls Acc 1188 Dial Cls m-F1 1247 Utt Cls
0.44
m/W-F1 Table 1: Overview of FETA tasks.
m/W-F1 表1: FETAタスクの概要。
0.44
Task types are abbreviated as follows: Utt Cls for utterance-level classification, Dial Cls for dialogue-level classification, Span Ex for span extraction, and Mult Ch for multiple choice.
Metrics are abbreviated as follows: M-F1 for macro-F1, m-F1 for micro-F1, T-F1 for token-F1, W-F1 for weighted-F1, EM for exact match and Acc for accuracy.
A domain D = {X , P(X)} consists of a feature space X and a marginal probability distribution P(X).
ドメインd = X , P(X)} は特徴空間 X と辺確率分布 P(X) からなる。 訳抜け防止モード: ドメインd = { X, P(X ) } は特徴空間 X からなる そして、限界確率分布 P(X) である。
0.67
The X ={x1, x2, . . . , xn} ∈ X .
X ={x1, x2, . , xn} ∈ X である。
0.86
A task T ={Y, f(X)} is composed of a label
タスク T ={Y, f(X)} はラベルからなる
0.64
marginal probabilities are over the instance set
限界確率はインスタンスセットを越えています
0.60
space Y and a predictive function, f ࢼ X → Y. Definition 2 (Learning Algorithm).
空間 Y と予測関数 f > X → Y. 定義 2 (学習アルゴリズム)。
0.70
A learning algorithm, A, is a protocol that determines the method by which the instance set X and taskspecific label sets Y1, Y2, . . . , Yn will be used to train a predictive function, f.
学習アルゴリズムAは、インスタンスセットXとタスク固有のラベルセットY1,Y2,...、Ynが予測関数fのトレーニングに使用される方法を決定するプロトコルである。 訳抜け防止モード: 学習アルゴリズムAは、インスタンスセットXとタスク固有のラベルセットY1の方法を決定するプロトコルである。 Y2 , . . . , Yn は予測関数 , f のトレーニングに使用される。
0.76
Definition 3 (Task Transfer).
定義3(タスク転送)。
0.68
Given a source
source (複数形 sources)
0.50
task TS = {YS, fS(XS)} and target task TT = {YT , fT(XT)}, task transfer is the use of a learnXT , we also have P(XS) ≠ P(XT) and DS ≠
Out of 10%, 5%, and 1%, 10% was empirically determined to be the smallest percentage that retains labels from all label sets in both the train and development partitions.
Given the recent attention focused on NLP applications in low-resource settings (Brown et al , 2020; Bansal et al , 2020; Mukherjee et al , 2021; Ye et al , 2021), we expect research done in such a low-data setting will lead to insights useful for many researchers and practitioners.
低リソース環境でのnlpアプリケーション(brown et al , 2020; bansal et al , 2020; mukherjee et al , 2021; ye et al , 2021)に注目した最近の注目を考えると、このような低データ環境での研究は、多くの研究者や実践者にとって有用な洞察をもたらすだろう。
0.80
3.2 FETA Datasets In this section, we describe the two dialogue sources we use, DailyDialog (Li et al , 2017) and Friends (Chen and Choi, 2016), and the tasks annotated on each source.
3.2 FETAデータセット この節では、DailyDialog(Li et al , 2017)とFriends(Chen and Choi, 2016)の2つの対話ソースと、各ソースに注釈付けされたタスクについて説明する。
0.74
We select these datasets because they complement each other in desirable ways.
望ましい方法で相互に補完するため、これらのデータセットを選択します。
0.59
DailyDialog contains 2-speaker dialogues where speakers are anonymized and averages 88 words per dialogue.
DailyDialogには2つの話者対話があり、話者は匿名化され、対話平均88語である。
0.55
In contrast, Friends consists of multiparty dialogues (3.6 speakers mean, 15 max) with recurring characters and averages 283 words per dialogue.
For example, DailyDialog tasks include understanding the causes of emotions and commonsense reasoning, while tasks annotated on Friends revolve more around recognizing entities and understanding personalities.
After splitting, we randomly down-sample the train and development dialogues to 10% of the original quantities.
分割後、列車と開発ダイアログをランダムに、元の量の10%にダウンサンプリングします。
0.72
Thus, FETA splits use 7/1.5/15% of the original dialogues.
したがって、FETA分割は元の対話の7/1.5/15%を使用する。
0.52
Not every dialogue is annotated for all tasks, allowing some tasks to have more samples than others.
すべての対話がすべてのタスクに注釈付けされているわけではない。
0.53
Crucially, the data splits are the same for all tasks, preventing data leakage.
重要なのは、データ分割がすべてのタスクで同じであり、データの漏洩を防止することだ。
0.61
Table 1 shows an overview of the tasks, samples, and metrics used for each dataset.
表1は、各データセットで使用されるタスク、サンプル、メトリクスの概要を示しています。
0.77
FETA-DailyDialog Li et al (2017) present the DailyDialog dataset, with chit-chat conversations covering 10 various topics including relationships, politics, and work.
FETA-DailyDialog Li et al (2017)では、DailyDialogデータセットが紹介されている。 訳抜け防止モード: FETA - DailyDialog Li et al (2017 )はDailyDialogデータセットを提示する。 チャットは、関係、政治、仕事など10のトピックをカバーする。
0.72
Many works add annotations on top of these dialogues and FETA utilizes 10 of them.
多くの作品がこれらの対話の上にアノテーションを追加し、fetaは10の対話を活用している。
0.47
Figure 2 provides an overview of the tasks: emotion recognition, dialogue act classification, topic classification (from DailyDialog (Li et al , 2017)), causal emotion span extraction, causal emotion entailment (from RECCON (Poria et al , 2021)), dialoguelevel natural language inference, dialogue reasoning span extraction, dialogue reasoning multiple choice, commonsense relation extraction (from CIDER (Ghosal et al , 2021)) adversarial response selection (from DailyDialog++ (Sai et al , 2020)).
図2は、感情認識、対話行動分類、トピック分類(DailyDialog (Li et al , 2017))、因果感情の抽出、因果感情の包含(RECCON (Poria et al , 2021))、対話レベルの自然言語推論、対話推論スパン抽出、対話推論、複数選択、共通意味関係抽出(CIDER (Ghosal et al , 2021))、反対応答選択(DailyDialog++ (Sai et al , 2020)といったタスクの概要を提供する。
0.74
For further details of these tasks, we refer the reader to Appendix A and their original papers.
これらのタスクの詳細については、読者にappendix aとそのオリジナルの論文を参照する。
0.67
FETA-Friends The Friends dialogues come from transcripts of 10 seasons of the TV show by the same name (Chen and Choi, 2016).
FETA-Friends 友人同士の対話は同名のテレビ番組の10シーズンの書き起こしから来ている(Chen and Choi, 2016)。
0.80
In addition to dialogue, the transcripts contain situational information such as behaviors and non-verbal information like scene information.
対話に加えて、文章には行動などの状況情報やシーン情報のような非言語情報が含まれている。
0.68
In total, FETA has 7 task annotations on top of the Friends scripts.
FETAには、Friendsスクリプトの上に7つのタスクアノテーションがある。
0.73
As illustrated in Figure 2, the incorporated tasks include Emory emotion recognition (from (Zahiri and Choi, 2018)), reading comprehension (from (Ma et al , 2018)), character identification (from (Chen and Choi, 2016; Zhou and Choi, 2018)), question answering (from (Yang and Choi, 2019)), personality detection (from (Jiang et al , 2020)), and relation extraction (from DialogRE (Yu et al , 2020)) and MELD emotion recognition (from MELD (Poria et al , 2019)).
図2に示すように、組み込まれたタスクには、エモリー感情認識(Zahiri and Choi, 2018)、読解(Ma et al , 2018)、文字識別(Chen and Choi, 2016; Zhou and Choi, 2018)、質問応答(Yang and Choi, 2019)、個性検出(Jiang et al , 2020)、関係抽出(DialogRE (Yu et al , 2020)、MELD (Poria et al , 2019)などがある。
0.61
There are two emotion recognition label sets (Emory and MELD), but they have only 22% overlap in instance sets and have different label spaces.
For further details of these tasks, we refer the reader to Appendix A and their original papers.
これらのタスクの詳細については、読者にappendix aとそのオリジナルの論文を参照する。
0.67
3.3 Evaluation Metrics To define the metrics, we consider 4 variables: source task s, target task t, model f, and learning algorithm A, and we abuse notation slightly to
3.3 評価指標 メトリクスを定義するには、ソースタスク s、ターゲットタスク t、モデル f、学習アルゴリズム A の4つの変数を検討します。
0.67
allow for fA(s, t) to represent a model trained on
fA(s, t)がトレーニングされたモデルを表現することができる
0.80
the source and target tasks using the given learning algorithm.
与えられた学習アルゴリズムを用いたソースとターゲットタスク。
0.88
In FETA, we evaluate the performance of a model and learning algorithm with multiple
FETAでは、複数のモデルと学習アルゴリズムの性能を評価する。
0.72
英語(論文から抽出)
日本語訳
スコア
metrics: average and top-1 raw scores, as well as average and top-1 score ∆s.
測定値: 平均スコアとトップ1の生スコア、および平均スコアとトップ1の生スコア。
0.68
Average and Top-1 Scores First, we consider the two raw scores: average score and top-1 score.
まず、平均スコアとトップ1スコアの2つの生スコアを考える。
0.53
These metrics aim to answer the following questions: How well do a model and algorithm perform across all task pairs, and, how well do a model and algorithm perform supposing that we knew the best source task a priori.
Formally, let the score for a single task be computed as:
正式には、1つのタスクのスコアを次のように計算します。
0.55
score(s, t, f,A) = 1ࢯMtࢯࢯMtࢯ(cid:61) Mt,i(fA(s, t)) t, found in Table 1, and Mt,i(f) is the ith calcuscore(s, t, f,A) Average Score(f,A) = ࢯTࢯ ×(ࢯTࢯ − 1)
∑ t∈T 4 Task Transfer Algorithms In this work, we consider three commonly used task transfer methods: Pre-train/Fine-tune, Multitask, Multitask/Fine-tune.
In the first stage, the source and target task are optimized jointly, as in Eq 3.
第1段階では、eq3のようにソースとターゲットタスクを共同で最適化する。
0.72
Then, the second stage trains using only the target task, as in Eq 2.
そして、第2ステージは、eq2のようにターゲットタスクのみを使用する。
0.65
Even though model selection in multitasking is generally done w.r.t. multiple source and target tasks (Caruana, 1994), we modify the setting to validate a model on a single target task at a time.
Table 2: Average and Top-1 Source task transfer scores.
表2: 平均およびトップ1のソースタスク転送スコア。
0.85
Average scores and ∆s aggregate scores over all source tasks, compared with Top-1 scores and ∆s which are calculated with scores from the highest performing source task.
To draw broad conclusions about the performance of each learning algorithm, we utilize pretrained language models with three different architectures: encoder-only (BERT) (Devlin et al , 2019), decoder-only (GPT-2) (Radford et al , 2019), and encoder-decoder (T5) (Raffel et al , 2020).
各学習アルゴリズムの性能について幅広い結論を得るために,Encoder-only (BERT) (Devlin et al , 2019), decoder-only (GPT-2) (Radford et al , 2019), encoder-decoder (T5) (Raffel et al , 2020) の3つの異なるアーキテクチャで事前訓練された言語モデルを利用する。
0.86
Implementation details, including hyperparameters and prompts, can be found in Appendix B.
ハイパーパラメータやプロンプトを含む実装の詳細は、appendix bで確認できる。
0.73
A complete experiment for a single target task, T , is as follows: First, we directly fine-tune on T to get the baseline score.
まず、T を直接微調整してベースラインスコアを得る。 訳抜け防止モード: 1つの目標タスク T に対する完全な実験は以下の通りである。 まず、ベースラインスコアを得るためにTをチューニングします。
0.73
Then, for each source task, S, we take the model pre-trained on S and fine-tune on T .
そして、各元タスク S に対して、S 上で事前訓練されたモデルと T 上のファインチューンをとる。
0.66
Next, we jointly train on S and T together.
次に、SとTを一緒に訓練します。
0.69
Finally, we fine-tune the jointly trained model on T .
最後に、Tで共同訓練されたモデルを微調整する。
0.60
FETA datasets have 10 and 7 tasks, giving 90 + 42 = 132 unique source-target task pairs.
In addition to the single-source setting described above, we also consider a subset of tasks to study in the multi-source setting, where multiple tasks are simultaneously used as source tasks to transfer to a single target task (6.2).
For our experiments, we select two target tasks from each dataset that benefit the most from task transfer, and we use the three source tasks that transferred best onto those targets.
6 Results and Analysis 6.1 Single-Source Setting Table 2 shows the results for all three models and algorithms, and we use this table to understand general trends.
Figure 3 shows the relative improvement of a source task for each target task, demonstrating trends across tasks.
図3は、対象タスク毎のソースタスクの相対的な改善を示し、タスク間のトレンドを示しています。
0.67
Aggregate Performance We find that, on average, Friends tasks get scores between 7-8 points less than DailyDialog, likely due to the greater number of speakers and utterance length of Friends.
We calculate the differences between average ∆ and top-1 ∆ and find the mean difference to be ∼1.6 and the largest difference to be ∼3.5, motivating a further understanding of which source tasks transfer best to target tasks.
Performance Across Learning Algorithms We average scores across both datasets and find that pre-train/fine-tune gets an average score of 42.85, multitask 42.84, and multitask/fine-tune 44.07.
Table 2 shows that multitask/fine-tune achieves the best average score for all models and datasets, and indeed its average score is a 2.8% improvement over the other algorithms.
However, aggregate scores obscure some interesting nuances.
しかし、集計スコアはいくつかの興味深いニュアンスを曖昧にしている。
0.40
Do Trends Vary Across Models?
トレンドはモデルによって異なるか?
0.63
Previous studies on task transfer have focused on a single model
タスク転送に関する先行研究は単一モデルに焦点をあてている
0.72
英語(論文から抽出)
日本語訳
スコア
Figure 3: Relative improvement of transfer over fine-tuned baselines.
図3: 微調整されたベースライン上の転送の相対的改善。
0.61
Rows are source tasks and columns are target tasks.
行はソースタスクであり、列はターゲットタスクである。
0.60
Diagonal cells are baseline scores.
対角細胞はベースラインスコアである。
0.73
Looking at an individual column can demonstrate best source tasks for that target.
個々の列を見ることで、そのターゲットに最適なソースタスクが示される。
0.66
Looking at rows can determine which source task works well across multiple targets.
行を見ることで、どのソースタスクが複数のターゲットでうまく機能するかを判断できる。
0.60
(Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022), but we find that trends vary depending on the model.
(Pruksachatkun et al , 2020; Lourie et al , 2021; Aribandi et al , 2022)。 訳抜け防止モード: (Pruksachatkun et al, 2020, Lourie et al, 2021, Aribandi et al, 2022) しかし傾向はモデルによって異なります
0.71
For example, we find results similar to Lourie et al (2021), namely, that fine-tuning on the target task always benefits the T5 model.
例えば、lourie et al (2021) と同じような結果が得られます。 訳抜け防止モード: 例えば、Lourie et al (2021 ) と同様の結果が見つかる。 つまり その... ターゲットタスクのチューニングは常にT5モデルにメリットがあります。
0.68
However, we discover that this does not hold for BERT and GPT-2.
しかし、これはBERT や GPT-2 には当てはまらない。
0.57
Furthermore, Figure 3 shows that trends on individual tasks also vary depending on the model.
さらに、図3は、個々のタスクの傾向がモデルによって異なることを示している。
0.70
For example, T5 positively transferred knowledge to question answering with all learning algorithms and from most source tasks, while GPT-2 had a negative transfer from all algorithms and sources.
This gain is likely due to the high-level language understanding required by both tasks.
この利点は、両方のタスクで必要となる高いレベルの言語理解のためだろう。
0.65
Figure 4: Score ∆ by target task type.
図4: ターゲットのタスクタイプによってスコアを付ける。
0.66
Lines show the average score ∆ when the target task is of the specified task type, computed as a best-fit linear interpolation of the data with a 95% confidence interval.
We find that multiple-choice tasks give the greatest benefit as source tasks, especially when the ratio of source-to-target samples is low, as shown in Figure 9 in the Appendix.
We find that T5 ∆s decrease as target-task samples increase, suggesting that T5 is more sample efficient than both GPT-2 and BERT.
その結果, T5 は GPT-2 や BERT よりも試料効率が高いことが示唆された。
0.68
6.2 Multi-Source Setting For multi-source transfer, we select four target tasks with the best score differences from the single-source setting, shown in Figures 7 and 8 in the Appendix.
We find those four tasks to be Dialogue Reasoning Span Extraction (DRSE), Dialogue-Level NLI (DNLI), Character Identification (CI), and Question Answering (QA).
これら4つのタスクは、DRSE(Dialogue Reasoning Span extract)、DNLI(Dnalogue-Level NLI)、CI( character Identification)、QA(QA)である。
0.66
For these target tasks, we select the top-3 best source tasks, shown in Table 6 of the Appendix .
We find that 6/9 multi-source algorithms outperform their average top-3 single-source counterparts in DRSE, 6/9 for DNLI, 3/9 for CI, and only 2/9 for QA, showing that naively combining source tasks is not always beneficial.
Table 6 shows that GPT-2 improves in 8/12 experiments over its average top-3 single-source counterparts, but BERT only 5/12 and T5 in only 4/12 experiments.
On the other hand, the additional parameters may be causing T5 to overfit on training data in the few-sample setting.
一方、追加パラメータは、T5が少数のサンプル設定でトレーニングデータに過度に適合する可能性がある。
0.72
7 Conclusion We introduce FETA, a comprehensive benchmark for evaluating language models and task transfer learning algorithms in open-domain dialogue with few samples.
Through extensive experimentation, we find new and non-intuitive insights on the mechanisms of transfer learning.
広範な実験を通じて、トランスファー学習のメカニズムに関する新しい直観的な洞察が得られます。
0.70
In particular, we find that most trends are model-specific, and we strongly encourage researchers to consider multiple model architectures before attempting to draw broad conclusions on transfer learning.
It is our hope that FETA enables further research not only in task transfer, but also in other learning settings, and in the generalizability and efficiency of model architectures and pre-training datasets.
Broader Impact A concern regarding any work that includes largescale experiments with large language models is the energy consumption and environmental impact, the current work included.
While there is a cost to running these experiments, the goal of this work is to improve sample efficiency in the future and we hope that the benefits in future energy saved will outweigh the up-front costs of discovering efficient methods.
Another concern of a large-scale benchmark is that of accessibility.
大規模ベンチマークのもう一つの懸念はアクセシビリティである。
0.56
A benchmark requiring too many resources will limit those who can reasonably compete.
あまりにも多くのリソースを必要とするベンチマークは、合理的に競争できる人を制限します。
0.50
For this reason and others, in addition to our large-scale benchmark we also include a smaller multi-source setting which requires only 4 experiments to be run for a single model and algorithm, rather than 132 in the single-source setting.
We believe this smaller setting will maintain the ability to extract high-quality insights on task transfer, yet allow for increased community access and reduce the carbon footprint of this benchmark.
While we do control for domain adaptation in our experiments on task transfer, there are some aspects that we cannot control.
タスク転送の実験ではドメイン適応を制御していますが、制御できないいくつかの側面があります。
0.71
For example, each model has done language model pre-training with a different corpus.
例えば、各モデルは異なるコーパスで言語モデルを事前訓練しました。
0.77
BERT was trained on English Wikipedia and BookCorpus (Zhu et al , 2015), GPT-2 was trained on a WebText (Radford et al , 2019), and T5 was trained on C4 (Raffel et al , 2020).
BERTは英語のWikipediaとBookCorpus(Zhu et al , 2015), GPT-2はWebText(Radford et al , 2019), T5はC4(Raffel et al , 2020)でトレーニングされた。
0.74
This difference likely affects model performance on the dialogue tasks in FETA.
この違いは、FETAの対話タスクにおけるモデルパフォーマンスに影響する可能性が高い。
0.58
Additionally, we cannot exhaustively test every language model, but still try to provide enough variety in order to draw broad conclusions on task transfer.
We expect that both of these changes would improve raw performance on FETA.
これらの変更によって、FETAの生のパフォーマンスが向上することを期待しています。
0.52
More importantly though, it is unclear whether either of these changes would lead to improved task-transfer performance (average and top-1 ∆s) and we leave this exploration for future work.
Finally, we stress the importance of intra-dataset task transfer in this work.
最後に,本研究におけるデータセット内タスク転送の重要性を強調した。
0.60
However, this limits the number of pre-annotated tasks that are available, and there are certainly some tasks which we were not able to accomodate in FETA.
2005. A framework for learning predictive structures from multiple tasks and unlabeled data.
2005. 複数のタスクとラベルなしデータから予測構造を学習するフレームワーク。
0.62
Journal of Machine Learning Research, 6(61):1817–1853.
Journal of Machine Learning Research, 6(61):1817–1853
0.46
Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, and Donald Metzler.
Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
0.40
2022. Ext5: Towards extreme multi-task scaling for transfer learning.
2022. ext5: 転送学習のための極端なマルチタスクスケーリングに向けて。
0.52
In International Conference on Learning Representations.
学習表現に関する国際会議に参加。
0.79
Trapit Bansal, Rishikesh Jha, Tsendsuren Munkhdalai, Self-supervised and Andrew McCallum.
2010. A theory of learning from different domains.
2010. 異なる領域から学ぶ理論。
0.46
Machine Learning, 79:151–175.
機械学習、79:151–175。
0.30
Joachim Bingel and Anders Søgaard.
Joachim BingelとAnders Søgaard。
0.39
2017. Identifying beneficial task relations for multi-task learning in deep neural networks.
2017. ディープニューラルネットワークにおけるマルチタスク学習のための有益タスク関係の同定
0.56
In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 164–169, Valencia, Spain.
Association for Computational Linguistics. Peter F. Brown, Vincent J. Della Pietra, Peter V. deSouza, Jenifer C. Lai, and Robert L. Mercer.
計算言語学会会員。 ピーター・f・ブラウン、ヴィンセント・j・デラ・ピエトラ、ピーター・v・デズーザ、ジェニファー・c・ライ、ロバート・l・マーサー。 訳抜け防止モード: 計算言語学会会員。 Peter F. Brown, Vincent J. Della Pietra, Peter V. de Souza ジェニファー・C・レイ、ロバート・L・マーサー。
0.67
1992. Class-based n-gram models of natural language.
1992. 自然言語のクラスベースn-gramモデル。
0.58
Computational Linguistics, 18(4):467–480.
計算言語学、18(4):467–480。
0.70
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei.
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ia Sutsk, Dario Démod 訳抜け防止モード: トム・ブラウン ベンジャミン・マン ニック・ライダー メラニー・サブビア ジャレッド・d・カプラン prafulla dhariwal, arvind neelakantan, pranav shyam, girish sastry amanda askell, sandhini agarwal, ariel herbertvoss, gretchen krueger, トム・ヘニハン ルーオン・チャイルド アディティヤ・ラメシュ ダニエル・ジーグラー ジェフリー・ウー クレメンス・ウィンター クリス・ヘッセ マーク・チェン eric sigler氏、mateusz litwin氏、scott gray氏、benjamin chess氏、jack clark氏。 クリストファー・バーナー、サム・マカンドリッシュ、アレク・ラドフォード、イリヤ・サツバー。 そして、ダリオ・アモデイ。
0.57
2020. Language models are few-shot learners.
2020. 言語モデルはわずかな学習者です。
0.56
In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901.
神経情報処理システムの進歩』第33巻、1877-1901頁。
0.70
Curran Associates, Inc.
Curran Associates, Inc.
0.42
Rich Caruana. 1994.
豊かなカルーアナ 1994.
0.42
Learning many related tasks at the same time with backpropagation.
バックプロパゲーションで多くの関連するタスクを同時に学習する。
0.78
In Advances in Neural Information Processing Systems, volume 7.
ニューラル情報処理システムの進歩, 巻7
0.55
MIT Press. Yu-Hsin Chen and Jinho D. Choi.
mitプレス。 Yu-Hsin Chen と Jinho D. Choi
0.44
2016. Character identification on multiparty conversation: Identifying mentions of characters in TV shows.
2016. 多人数会話におけるキャラクタ識別:テレビ番組におけるキャラクタの言及の識別。
0.52
In Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 90–
Association for Computational Linguistics. Ronan Collobert and Jason Weston.
計算言語学会会員。 ロナン・コロバートとジェイソン・ウェストン
0.55
2008. A unified architecture for natural language processing: Deep In Proneural networks with multitask learning.
2008. 自然言語処理のための統一アーキテクチャ:マルチタスク学習を伴うDeep In Proneural Network。
0.64
ceedings of the 25th International Conference on Machine Learning, ICML ’08, page 160–167, New York, NY, USA.
25th international conference on machine learning, icml ’08, page 160–167, new york, ny, usa. (英語) 訳抜け防止モード: 第25回機械学習国際会議, ICML'08に参加して 160-167頁、ニューヨーク、ニューヨーク、アメリカ。
0.79
Association for Computing Machinery.
アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。
0.36
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
0.38
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing.
2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。
0.50
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota.
The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota. 訳抜け防止モード: 計算言語学会北米支部の紹介 : 人間言語技術 第1巻(長編・短編)、4171-4186頁、ミネソタ州ミネアポリス。
0.56
Association for Computational Linguistics. Deepanway Ghosal, Pengfei Hong, Siqi Shen, Navonil Majumder, Rada Mihalcea, and Soujanya Poria.
2020. A simple In Adlanguage model for task-oriented dialogue.
2020. タスク指向対話のための簡素なアド言語モデル
0.57
vances in Neural Information Processing Systems, volume 33, pages 20179–20191.
神経情報処理システム (Neural Information Processing Systems, volume 33, page 20179–20191)。
0.67
Curran Associates, Inc.
Curran Associates, Inc.
0.42
Minlie Huang, Xiaoyan Zhu, and Jianfeng Gao.
Minlie Huang、Xiaoyan Zhu、Jianfeng Gao。
0.33
2020. Challenges in building intelligent open-domain dialog systems.
2020. インテリジェントなオープンドメインダイアログシステム構築の課題。
0.59
ACM Transactions on Information Systems (TOIS), 38:1 – 32.
ACM Transactions on Information Systems (TOIS) 38:1 - 32。
0.86
Hang Jiang, Xianzhe Zhang, and Jinho D Choi.
Hang Jiang、Xianzhe Zhang、Jinho D Choi。
0.67
2020. Automatic text-based personality recognition on monologues and multiparty dialogues using attentive networks and contextual embeddings (student In Proceedings of the AAAI Conference abstract).
on Artificial Intelligence, volume 34, pages 13821– 13822.
人工知能では、巻34、巻13821-13822。
0.60
Diederik P. Kingma and Jimmy Ba.
ディデリック・P・キングマとジミー・バ
0.45
2015. Adam: A In 3rd Intermethod for stochastic optimization.
2015. adam: 確率最適化のための第3のインターメソッド。
0.54
national Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings.
national conference on learning representations, iclr 2015, san diego, ca, usa, may 7-9, 2015 conference track proceedings (英語) 訳抜け防止モード: ICLR 2015, San Diego, CA, USA, International Conference on Learning Representations に参加して 2015年5月7日~9日, Conference Track Proceedings。
0.81
Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, and Shuzi Niu.
2021. Unicorn on rainbow: A universal commonsense reasoning model on a new multitask benchmark.
2021. Unicorn on Rain: 新しいマルチタスクベンチマークにおけるユニバーサルコモンセンス推論モデル。
0.56
AAAI. Kaixin Ma, Tomasz Jurczyk, and Jinho D. Choi.
AAAI Kaixin Ma、Tomasz Jurczyk、Jinho D. Choi。
0.45
2018. Challenging reading comprehension on daily conversation: Passage completion on multiparty dialog.
2018. 日々の会話における理解の難解性:多人数対話の通路補完
0.55
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2039–2048, New Orleans, Louisiana.
the association for computational linguistics: human language technologies, volume 1 (long papers), pages 2039–2048, ルイジアナ州ニューオーリンズ。 訳抜け防止モード: 計算言語学会北米支部2018年会議報告 : ヒューマン・ランゲージ・テクノロジー Volume 1 (Long Papers ), page 2039–2048, New Orleans, Louisiana.
0.58
Association for Computational Linguistics. S. Mehri, M. Eric, and D. Hakkani-Tur.
計算言語学会会員。 S. Mehri、M. Eric、D. Hakkani-Tur。
0.45
2020. language understanding ArXiv,
2020. 言語理解 ArXiv
0.51
task-oriented dialogue. Dialoglue: A natural benchmark for abs/2009.13570.
タスク指向対話。 Dialoglue: abs/2009.13570の自然なベンチマーク。
0.59
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean.
Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg S Corrado、Jeff Dean。
0.35
2013. Distributed representations of words and phrases and their compositionality.
2013. 単語と句の分散表現とその構成性
0.52
In Advances in Neural Information Processing Systems, volume 26.
ニューラル・インフォメーション・プロセッシング・システムにおける第26巻。
0.45
Curran Associates, Inc.
Curran Associates, Inc.
0.42
Subhabrata (Subho) Mukherjee, Xiaodong Liu, Guoqing Zheng, Saghar Hosseini, Hao Cheng, Greg Yang, Chris Meek, Ahmed H. Awadallah, and Jianfeng Gao.
Subhabrata (Subho) Mukherjee, Xiaodong Liu, Guoqing Zheng, Saghar Hosseini, Hao Cheng, Greg Yang, Chris Meek, Ahmed H. Awadallah, Jianfeng Gao
0.39
2021. Clues: Few-shot learning evaluation in natural language understanding.
2021. ヒント:自然言語理解における数少ない学習評価。
0.58
In NeurIPS 2021.
ニューロプス2021年。
0.52
Arghya Pal and Vineeth N Balasubramanian.
arghya pal and vineeth n balasubramanian(英語)
0.55
2019. the Zero-shot IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2189–2198.
2019. Zero-shot IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 2189–2198
0.43
In Proceedings of task transfer.
訴訟の手続において タスク転送。
0.51
Sinno Jialin Pan and Qiang Yang.
sinno jialin panとqiang yangだ。
0.56
2010. A survey on transfer learning.
2010. 転校学習に関する調査。
0.55
IEEE Transactions on Knowledge and Data Engineering, 22:1345–1359.
IEEE Transactions on Knowledge and Data Engineering, 22:1345–1359。
2017. Semi-supervised sequence tagging with bidirectional language models.
2017. 双方向言語モデルを用いた半教師付きシーケンスタギング
0.52
In Proceedings of the 55th Annual Meeting of
第55回年次大会に参加して
0.73
英語(論文から抽出)
日本語訳
スコア
the Association for Computational Linguistics (Volume 1: Long Papers), pages 1756–1765, Vancouver, Canada.
the association for computational linguistics (第1巻: long papers) 1756-1765頁、カナダのバンクーバー。
0.74
Association for Computational Linguistics. Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer.
2018. Deep contextualized word repIn Proceedings of the 2018 Conferresentations.
2018. 2018年コンフェレンテーションの深い文脈化された言葉の再現手順。
0.46
ence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227–2237, New Orleans, Louisiana.
the association for computational linguistics: human language technologies, volume 1 (long papers), pages 2227-2237 (ルイジアナ州ニューオーリンズ)。
0.54
Association for Computational Linguistics. Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria, and Rada Mihalcea.
計算言語学会会員。 Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria, Rada Mihalcea
0.43
2019. Meld: A multimodal multi-party dataset for emotion recognition in conversations.
2019. Meld: 会話における感情認識のためのマルチモーダルなマルチパーティデータセット。
0.61
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 527– 536.
第57回計算言語学会年次総会において、527-536頁。
0.56
Soujanya Poria, Navonil Majumder, Devamanyu Hazarika, Deepanway Ghosal, Rishabh Bhardwaj, Samson Yu Bai Jian, Pengfei Hong, Romila Ghosh, Abhinaba Roy, Niyati Chhaya, Alexander Gelbukh, and Rada Mihalcea.
Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, and Samuel R. Bowman.
Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, Samuel R. Bowman 訳抜け防止モード: ジェイソン・ファン、ハオクン・リウ、プ・モン・フトゥ、シャオイ・ジャン。 richard yuanzhe pang、clara vania、katharina kann、samuel r. bowman。
0.49
2020. Intermediate-task transfer learning with pretrained language models: When and why In Proceedings of the 58th Annual does it work?
2020. 事前学習された言語モデルによる中間タスク転送学習:第58回年次大会の開催時期と理由
0.52
Meeting of the Association for Computational Linguistics, pages 5231–5247, Online.
the association for computational linguistics, pages 5231-5247, online (英語)
0.75
Association for Computational Linguistics. Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever.
2019. Language models are unsupervised multitask learners.
2019. 言語モデルは教師なしマルチタスク学習者である。
0.51
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu.
コリン・ラフェル、ノーム・シャザー、アダム・ロバーツ、キャサリン・リー、シャラン・ナラン、マイケル・マテナ、ヤンチー・周、ウェイ・リー、ピーター・j・リュー。 訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.92
2020. Exploring the limits of transfer learning with a unified text-totext transformer.
2020. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討
0.62
Journal of Machine Learning Research, 21(140):1–67.
journal of machine learning research、21(140):1-67。
0.74
Swabha Sebastian Ruder, Matthew E. Peters, TransSwayamdipta, and Thomas Wolf.
Swabha Sebastian Ruder、Matthew E. Peters、TransSwayamdipta、Thomas Wolf。
0.39
2019. fer learning in natural language processing.
2019. 自然言語処理におけるフェル学習。
0.57
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials, pages 15–18, Minneapolis, Minnesota.
2020. The dialogue dodecathlon: Open-domain knowledge and image grounded conversational agents.
2020. 対話ドデカトロン: オープンドメインの知識とイメージ基盤の会話エージェント。
0.56
In ACL. Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain, Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela, Arthur Szlam, and Jason Weston.
aclで ジャック・アーネック、アンジェラ・ファン、シッダート・カラムチェティ、サーチ・ジャイン、サミュエル・ヒューモー、エミリー・ディナン、ティム・ロックテッシェル、ダウウェ・キエラ、アーサー・シラム、ジェイソン・ウェストン。 訳抜け防止モード: aclで Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela アーサー・スラム(Arthur Szlam)、ジェイソン・ウェストン(Jason Weston)。
0.65
2019. Learning to speak and act in In Proceedings a fantasy text adventure game.
2019. 話を学び、ファンタジーのテキストアドベンチャーゲームに参加します。
0.51
of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 673–683, Hong Kong, China.
Association for Computational Linguistics. Tu Vu, Tong Wang, Tsendsuren Munkhdalai, Alessandro Sordoni, Adam Trischler, Andrew MattarellaMicke, Subhransu Maji, and Mohit Iyyer.
計算言語学会会員。 Tu Vu, Tong Wang, Tsendsuren Munkhdalai, Alessandro Sordoni, Adam Trischler, Andrew MattarellaMicke, Subhransu Maji, Mohit Iyyer
0.44
2020. Exploring and predicting transferability across nlp tasks.
2020. nlpタスク間の転送可能性の探索と予測。
0.52
In EMNLP. Gloria Wilcox.
略称はemnlp。 グロリア・ウィルコックス
0.41
1982. The feeling wheel.
1982. 感覚の車輪。
0.53
Transac- tional Analysis Journal, 12:4:274–276.
Transac- 論文12:4:274-276より引用。
0.41
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush.
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander Rush 訳抜け防止モード: トーマス・ウルフ、lysandre、victor sanh、julien chaumond。 clement delangue, anthony moi, pierric cistac, tim rault, remi louf, モーガン・ファントウィッツ ジョー・デイヴィソン サム・シュライファー パトリック・フォン・プラトン clara ma, yacine jernite, julien plu, canwen xu, teven le scao, sylvain gugger, mariama drame, quentin lhoestなど。 アレキサンダー・ラッシュ
0.57
2020. Transformers: State-of-the-art natural language processing.
2020. Transformers: 最先端の自然言語処理。
0.61
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online.
the thirty-second aaai conference on artificial intelligence.
第33回 aaai conference on artificial intelligence 参加報告
0.67
Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas, Jitendra Malik, and Silvio Savarese.
Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas, Jitendra Malik, Silvio Savarese 訳抜け防止モード: Amir R. Zamir, Alexander Sax, William Shen, Leonidas J. Guibas ジテンドラ・マリク(Jitendra Malik)とシルヴィオ・サヴァレス(Silvio Savarese)。
0.79
2018. Taskonomy: Disentangling task transfer learning.
2018. taskonomy: タスク転送学習の分離。
0.59
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
0.37
Rowan Zellers, Yonatan Bisk, Roy Schwartz, and Yejin Choi.
2018. Swag: A large-scale adversarial dataset for grounded commonsense inference.
2018. Swag: グラウンドドコモンセンス推論のための大規模な逆データセット。
0.54
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP).
自然言語処理における実証的手法に関する2018年会議(EMNLP)の開催報告
0.79
Ethan Zhou and Jinho D. Choi.
ethan zhou と jinho d. choi。
0.66
2018. They exist! introducing plural mentions to coreference resolution and entity linking.
2018. コア参照解決とエンティティリンクに複数の言及を導入するのです。
0.48
In Proceedings of the 27th International Conference on Computational Linguistics, pages 24–34, Santa Fe, New Mexico, USA.
第27回計算言語学国際会議(27th International Conference on Computational Linguistics)は、アメリカ合衆国ニューメキシコ州サンタフェの24-34ページ。
0.67
Association for Computational Linguistics. Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler.
These tasks are created by annotating knowledge triplets on 31 relations that are either explicitly stated in the dialogue or that require commonsense reasoning using contextual information.
Given a knowledge triplet as <head, relation, tail>, the span extraction task is formulated as identifying the tail when given the head, relation, and dialogue for context.
The multiple choice task is motivated by the SWAG commonsense inference task (Zellers et al , 2018), given a head, relation, and conversation as context, the goal is to predict the tail of the relation from 4 possible choices.
複数の選択タスクは、SWAG Commonsense推論タスク(Zellers et al , 2018)によって動機付けられ、頭、関係、会話がコンテキストとして与えられると、4つの選択肢から関係のテールを予測することが目的である。
0.73
Finally, commonsense relation extraction is formulated as usual relation extraction tasks; given the head, tail, and conversation as context, the goal is to predict the correct relation out of 31 options.
DailyDialog++ Sai et al (2020) present the DailyDialog++ dataset, where they aim to improve evaluation of response generation.
DailyDialog++ Sai et al (2020)はDailyDialog++データセットを示し、応答生成の評価を改善することを目的としている。
0.67
They do so by collecting five relevant responses and five adversarially crafted irrelevant responses for each dialogue in their dataset, and we recycle their data for a new task called adversarial response selection.
Adversarial response selection is formulated as a multiple choice selection between a correct response, a randomly selected negative response, and an adversarial negative response.
A.2 Friends EmoryNLP Chen and Choi (2016) and Zhou and Choi (2018) provide annotations for character identification, a subtask of entity linking, where entity mentions in an utterance need to be matched to their correct entity.
A.2 Friends EmoryNLP Chen and Choi (2016) と Zhou and Choi (2018) は、エンティティリンクのサブタスクである文字識別のためのアノテーションを提供する。 訳抜け防止モード: A.2 Friends EmoryNLP Chen and Choi (2016 ) と Zhou and Choi (2018 ) は文字識別のためのアノテーションを提供している。 エンティティリンクのサブタスク 発話中のエンティティの言及は、正しいエンティティにマッチする必要がある。
0.50
For this task there are seven possible entities: the six main characters and an "other" entity.
このタスクには,7つの可能なエンティティ – 6つのメインキャラクタと“他の”エンティティがある。
0.74
Zahiri and Choi (2018) provide annotations on emotion recognition, with the 7 fine-grained emotions from the Feeling Wheel (Wilcox, 1982).
Zahiri and Choi (2018) は感情認識のアノテーションを提供しており、Feeling Wheel (Wilcox, 1982) の7つのきめ細かい感情がある。
0.79
Ma et al (2018) present annotations for a subtask of reading comprehension, called passage completion.
Ma et al (2018) は、通訳完了と呼ばれる読解のサブタスクのアノテーションを提示した。
0.54
In passage completion, given a dialogue and factual statement about the dialogue where character mentions are removed, the task is to fill in the blanks with the correct character from the dialogue.
This task is similar to a multiple choice task because entity choices are presented to the
このタスクは、エンティティの選択が提示されるため、複数の選択タスクに似ている。
0.65
Figure 6: Utterance and dialogue length distributions in FETA.
図6:FETAにおける発話と対話長の分布。
0.79
A Dataset Details A.1
データセットの詳細 A.1
0.65
DailyDialog DailyDialog Along with the dialogues, Li et al (2017) provide annotations for emotion recognition, dialogue act classification, and topic classification.
DailyDialog DailyDialog 対話とともに、Li et al (2017) は感情認識、対話行為分類、トピック分類のためのアノテーションを提供している。
0.79
RECCON Poria et al (2021) introduce the task of recognizing emotion causes in conversation and provide annotations for two subtasks: causal emotion span extraction and causal emotion entailment.
RECCON Poria et al (2021)は、会話における感情の原因を認識するタスクを導入し、因果的感情が抽出にまたがる2つのサブタスクのアノテーションを提供する。
0.69
Recognizing the cause behind emotions is an important aspect of developing conversational agents that can respond appropriately and these tasks test that ability.
In causal emotion span extraction, the model is given input as "The target utterance is <Ut>. The evidence utterance is <Ue>. What is the causal span from evidence in the context that is relevant to the target utterance’s emotion <Et>?".
On the other hand, if the conversation history up to utterance Ut is H(Ut), then the task of causal emotion entailment is to classify the triple (Ut,Ue,H(Ut)) as entailment or not entailment.
CIDER Ghosal et al (2021) provide annotations for four tasks designed to explore commonsense inference and reasoning in dialogue: dialoguelevel natural language inference (DNLI), dia-
CIDER Ghosal et al (2021)は、対話における常識推論と推論:対話レベル自然言語推論(DNLI)、ダイアログの4つのタスクに対してアノテーションを提供する。
0.75
英語(論文から抽出)
日本語訳
スコア
C Expanded Single-Source Results
Cがシングルソースの結果を拡大
0.50
model, but because there are varying number of options in each dialogue, it is formulated as a span extraction that is evaluated based on accuracy.
Yang and Choi (2019) introduce annotations for question answering.
Yang and Choi (2019) では質問応答のためのアノテーションを紹介している。
0.64
The answers to questionanswer pairs can either be a speaker name or exist as a span within the dialogue, and multiple spans may be correct.
質問応答対に対する回答は話者名か対話内のスパンとして存在し、複数のスパンが正しいかもしれない。
0.71
Jiang et al (2020) present the personality detection task by annotating speakers with five traits: agreeableness, conscientiousness, extraversion, openness, and neuroticism.
Jiang et al (2020) は、話者に同意性、良心性、外向性、開放性、神経症という5つの特徴を付加することで人格検出タスクを提示した。 訳抜け防止モード: Jiang et al (2020 )はパーソナリティ検出タスクを提示する 5つの特徴:一致性、良心性、外向性、開放性、神経症。
0.75
The goal of the task is to correctly identify whether a given character from a dialogue either has or does not have each of the five traits.
タスクの目標は、対話から与えられた文字が5つの特徴を持つかどうかを正確に識別することである。
0.69
DialogRE Yu et al (2020) introduce a relation extraction dataset annotated with 36 different relations.
DialogRE Yu et al (2020)は36の異なる関係を注釈付けした関係抽出データセットを導入した。
0.67
Their dataset anonymizes speakers which allows for an entity linking relation called "per:alternative_name ".
However, our version of the Friends dataset is named and so we remove this relation from our data.
しかし、friendsデータセットのバージョンは名前付きなので、この関係をデータから削除します。
0.73
This task is similar to the relation extraction from DailyDialog, however the relations in DailyDialog are commonsense relations, and the relations in Friends are focused on information about entities.
MELD Poria et al (2019) provide additional annotations for emotion recognition, with only 22.2% dialogue overlap with Zahiri and Choi (2018)’s dialogues.
meld poria et al (2019) は感情認識のための追加のアノテーションを提供しており、zahiri と choi (2018) の対話と22.2%の対話が重複している。
0.63
Additionally, while both use 7 total emotions, Poria et al (2019) use 2 different emotions from Zahiri and Choi (2018).
さらに、両者とも合計7つの感情を使用するが、Poria et al (2019) はザヒリとチョイ (2018) の2つの異なる感情を使用する。
0.64
B Implementation Details For our experiments, we use the pretrained model implementations from the HuggingFace Transformers library (Wolf et al , 2020), where the bert-baseuncased model has 110M parameters, GPT-2 has 124M parameters, and T5-base has 223M parameters.
B 実装の詳細 実験では,HuggingFace Transformersライブラリ(Wolf et al , 2020)の事前訓練モデル実装を用いて,bert-baseuncasedモデルが110Mパラメータ,GPT-2が124Mパラメータ,T5-baseが223Mパラメータを持つ。
0.85
We use the Adam optimizer (Kingma and Ba, 2015) with a batch size of 60 and run a learning rate sweep across {3×10-6, 1×10-5,3×10-5,1×10-4} during the pre-training phase, finding that 3×10-5 worked well across all models.
我々は、Adam Optimizationr (Kingma and Ba, 2015) を60のバッチサイズで使用し、事前トレーニングフェーズ中に{3×10-6, 1×10-5,3×10-5,1×10-4} で学習率スイープを実行し、3×10-5がすべてのモデルでうまく動作することを発見した。
0.59
In all experiments we utilize validation-based best model selection, and train models for 30 epochs on DailyDialog tasks and 20 epochs on Friends tasks.
Prompt emotion: question: <question> out of <entities> [PLACEHOLDER] is out of <options>, <mention> in the phrase <phrase> refers to question: <question> answer: <entity> is <characteristic> <head> has the following relations with <tail> emotion:
prompt emotion: question: <entities> [placeholder] is out of <options>, <mention> in the phrase <phrase> used to question: <question> answer: <entity> is <characteristic> <head> has the following relations with <tail> emotion: <question> answer: <entity> is <characteristic> <head> 訳抜け防止モード: Prompt emotion : question : < question > out of < entity > [ PLACEHOLDER ] is out of < options >, 語句>の<言及>は疑問を指す。 : <質問> > 回答 : <実体> は<特徴> <頭部> は<尾> > 感情と以下の関係を持つ :
0.74
Table 5: Prompts for FETA-Friends tasks.
表5: FETA-Friendsタスクのプロンプト。
0.80
All prompts start with "context: <context>", but we leave this out due to repetitiveness and space.