論文の概要、ライセンス

# (参考訳) 少ないショットパラメーター効率のファインチューニングは文脈学習より優れ、より正確である [全文訳有]

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning ( http://arxiv.org/abs/2205.05638v1 )

ライセンス: CC BY 4.0
Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel(参考訳) few-shot in-context learning (icl)は、事前学習された言語モデルが、少数のトレーニングサンプルを入力の一部として入力することで、勾配ベースのトレーニングなしで、事前学習済みのタスクを実行可能にする。 ICLは、予測が行われるたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。 パラメータ効率の良い微調整(例えば、アダプタモジュール、プロンプトチューニング、スパース更新メソッドなど)は、モデルの新たなタスク実行を可能にするために、小さなパラメータセットをトレーニングする代替パラダイムを提供する。 本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。 その過程で,学習ベクトルによるアクティベーションをスケールする(ia)$^3$と呼ばれる新しいパラメータ効率の良い微調整法を導入する。 また、タスク固有のチューニングや修正なしに新しいタスクに適用できるT-Fewと呼ばれるT0モデルに基づく簡単なレシピを提案する。 我々は、RAFTベンチマークに適用し、超人的性能を初めて達成し、最先端の精度を6%向上させることにより、完全に見えないタスクに対するT-Fewの有効性を検証する。 私たちの実験で使われたコードはすべて公開されています。

Few-shot in-context learning (ICL) enables pre-trained language models to perform a previously-unseen task without any gradient-based training by feeding a small number of training examples as part of the input. ICL incurs substantial computational, memory, and storage costs because it involves processing all of the training examples every time a prediction is made. Parameter-efficient fine-tuning (e.g. adapter modules, prompt tuning, sparse update methods, etc.) offers an alternative paradigm where a small set of parameters are trained to enable a model to perform the new task. In this paper, we rigorously compare few-shot ICL and parameter-efficient fine-tuning and demonstrate that the latter offers better accuracy as well as dramatically lower computational costs. Along the way, we introduce a new parameter-efficient fine-tuning method called (IA)$^3$ that scales activations by learned vectors, attaining stronger performance while only introducing a relatively tiny amount of new parameters. We also propose a simple recipe based on the T0 model called T-Few that can be applied to new tasks without task-specific tuning or modifications. We validate the effectiveness of T-Few on completely unseen tasks by applying it to the RAFT benchmark, attaining super-human performance for the first time and outperforming the state-of-the-art by 6% absolute. All of the code used in our experiments is publicly available.
公開日: Wed, 11 May 2022 17:10:41 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] G L . s c [ ] G L。 sc [ 0.47
1 v 8 3 6 5 0 1 v 8 3 6 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Few-Shot Parameter-Efficient Fine-Tuning is Better 少ないショットパラメータ効率の良いファインチューニング 0.51
and Cheaper than In-Context Learning コンテキスト内学習よりも安価です。 0.50
Haokun Liu∗ Derek Tam∗ Mohammed Muqeeth∗ Haokun Liu∗ Derek Tam∗ Mohammed Muqeeth∗ 0.41
Jay Mohta Tenghao Huang Mohit Bansal Colin Raffel Jay Mohta Tenghao Huang Mohit Bansal Colin Raffel 0.42
Department of Computer Science University of North Carolina at Chapel Hill 計算機科学専攻 ノースカロライナ大学チャペルヒル校 0.61
{haokunl,dtredsox,muq eeth,craffel}@cs.unc.edu haokunl,dtredsox,muq eeth,craffel}@cs.unc.edu 0.46
Abstract Few-shot in-context learning (ICL) enables pre-trained language models to perform a previously-unseen task without any gradient-based training by feeding a small number of training examples as part of the input. 概要 few-shot in-context learning (icl)は、事前学習された言語モデルが、少数のトレーニングサンプルを入力の一部として入力することで、勾配ベースのトレーニングなしで、事前学習済みのタスクを実行可能にする。
訳抜け防止モード: 概要 ほとんど - ショットイン - 文脈学習(ICL) 事前訓練された言語モデルにより、グラデーションなしで、事前に見えないタスクを実行することができる。 少数の訓練例を入力の一部として提供します
0.53
ICL incurs substantial computational, memory, and storage costs because it involves processing all of the training examples every time a prediction is made. ICLは、予測が行われるたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。 0.77
Parameter-efficient fine-tuning (e g adapter modules, prompt tuning, sparse update methods, etc.) offers an alternative paradigm where a small set of parameters are trained to enable a model to perform the new task. パラメータ効率の良い微調整(例えば、アダプタモジュール、プロンプトチューニング、スパース更新メソッドなど)は、モデルの新たなタスク実行を可能にするために、小さなパラメータセットをトレーニングする別のパラダイムを提供する。 0.84
In this paper, we rigorously compare few-shot ICL and parameter-efficient fine-tuning and demonstrate that the latter offers better accuracy as well as dramatically lower computational costs. 本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。 0.79
Along the way, we introduce a new parameter-efficient fine-tuning method called (IA)3 that scales activations by learned vectors, attaining stronger performance while only introducing a relatively tiny amount of new parameters. その過程で,学習ベクトルによるアクティベーションをスケールし,比較的少ないパラメータしか導入せず,より強力な性能を実現する(ia)3と呼ばれる新しいパラメータ効率の良い微調整手法を導入する。 0.81
We also propose a simple recipe based on the T0 model [1] called T-Few that can be applied to new tasks without task-specific tuning or modifications. また,タスク固有のチューニングや修正なしに新しいタスクに適用可能なT0モデル[1]であるT-Fewを提案する。 0.73
We validate the effectiveness of T-Few on completely unseen tasks by applying it to the RAFT benchmark [2], attaining super-human performance for the first time and outperforming the state-of-the-art by 6% absolute. RAFTベンチマーク [2] に適用し,超人的性能を初めて達成し,最先端の精度を6%向上させることにより,T-Few の有効性を検証した。 0.76
All of the code used in our experiments is publicly available.1 私たちの実験で使われたコードはすべて公開されています。 0.57
Introduction 1 Pre-trained language models have become a cornerstone of natural language processing, thanks to the fact that they can dramatically improve data efficiency on tasks of interest – i.e., using a pre-trained language model for initialization often produces better results with less labeled data. はじめに 1 事前学習された言語モデルが自然言語処理の基盤となっているのは、興味のあるタスクにおけるデータ効率を劇的に向上できるためである。
訳抜け防止モード: はじめに 1 Pre - 訓練された言語モデルが自然言語処理の基盤となっている。 興味のあるタスクのデータの効率を劇的に改善できるという事実のおかげで、 初期化のために事前訓練された言語モデルを使用する ラベル付きデータが少ないと結果が良くなります。
0.62
A historically common approach has been to use the pre-trained model’s parameters for initialization before performing gradient-based fine-tuning on a downstream task of interest. 歴史的に一般的なアプローチは、下流のタスクで勾配に基づく微調整を行う前に、事前訓練されたモデルのパラメータを初期化に使用することであった。 0.63
While fine-tuning has produced many state-of-the-art results [1], it results in a model that is specialized for a single task with an entirely new set of parameter values, which can become impractical when fine-tuning a model on many downstream tasks. 微調整は最先端の成果を多く生み出している([1])が、結果として、全く新しいパラメータのセットを持つ単一のタスクに特化したモデルが出来上がり、多くの下流タスクでモデルを微調整する場合、非現実的になる可能性がある。 0.67
An alternative approach popularized by [3, 4] is in-context learning (ICL), which induces a model to perform a downstream task by inputting prompted examples. 3, 4]で広く普及している別のアプローチは、インコンテキスト学習(ICL)であり、入力された例を入力して下流タスクを実行するモデルを誘導する。 0.64
Few-shot prompting is the process of converting a small collection of input-target pairs into (typically) human-understandable instructions and examples [3, 4], along with a single unlabeled example for which a prediction is desired. 少数ショットプロンプト(英: few-shot prompting)とは、入力と対象のペアの小さな集まりを(通常)人間に理解可能な命令と例 [3, 4] に変換するプロセスである。 0.67
Notably, ∗Equal contribution. 特に。 等しく貢献する。 0.53
1https://github.com/ r-three/t-few 1https://github.com/ r-three/t-few 0.14
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
Figure 1: Diagram of (IA)3 and the loss terms used in the T-Few recipe. 図1: (IA)3のダイアグラムとT-Fewレシピで使われる損失項。 0.78
Left: (IA)3 introduces the learned vectors lk, lv, and lff which respectively rescale (via element-wise multiplication, visualized as (cid:12)) the keys and values in attention mechanisms and the inner activations in position-wise feed-forward networks. 左: (IA)3は学習ベクターlk, lv, lffを導入し、それぞれ(要素ワイド乗算により)注目機構におけるキーと値と位置ワイドフィードフォワードネットワークにおける内部アクティベーションを再スケールする(cid:12)。 0.82
Right: In addition to a standard cross-entropy loss LLM, we introduce an unlikelihood loss LUL that lowers the probability of incorrect outputs and a length-normalized loss LLN that applies a standard softmax cross-entropy loss to length-normalized log-probabilities of all output choices. 右: 標準のクロスエントロピー損失 LLM に加えて, 誤り出力の確率を下げる等式損失 LUL と, 標準のソフトマックスクロスエントロピー損失を全ての出力選択の長値正規化対数確率に適用する長値正規化損失 LLN を導入する。 0.87
ICL requires no gradient-based training and therefore allows a single model to immediately perform a wide variety of tasks. ICLは勾配に基づくトレーニングを必要とせず、単一のモデルで即座に幅広いタスクを実行できる。 0.68
Performing ICL therefore solely relies on the capabilities that a model learned during pre-training. ICLの実行は、事前トレーニング中にモデルが学んだ能力にのみ依存する。 0.65
These characteristics have led to a great deal of recent interest in ICL methods [5–10]. これらの特徴は最近のICL手法 [5-10] への関心を大いに高めた。 0.73
Despite the practical benefits of in-context learning, it has several major drawbacks. コンテキスト内学習の実用的メリットにもかかわらず、いくつかの大きな欠点がある。 0.50
First, the fact that the model has to process all prompted input-target pairs every time it makes a prediction incurs significant compute costs. 第一に、予測を行うたびに全ての入力ターゲット対を処理しなければならないという事実は、かなりの計算コストを発生させる。 0.66
Second, in-context learning typically produces inferior performance compared to fine-tuning [4]. 第二に、コンテキスト内学習は通常、微調整[4]に比べてパフォーマンスが劣る。 0.58
Finally, the exact formatting of the prompt (including the wording [11] and ordering of examples [12]) can have significant and unpredictable impact on the model’s performance, far beyond inter-run variation observed when performing fine-tuning. 最後に、プロンプトの正確なフォーマッティング(単語 [11] と例 [12] の順序を含む)は、微調整を行う際に観察される実行間変動を超えて、モデルの性能に有意かつ予測不可能な影響を及ぼす可能性がある。 0.78
Recent work has also demonstrated that ICL can perform well even when provided with incorrect labels, raising questions as to how much learning is taking place at all [9]. 最近の研究は、ICLが誤ったラベルを付けたとしてもうまく機能できることを示し、どの程度の学習が行われているかという疑問を提起している [9]。 0.57
An additional paradigm for enabling a model to perform a new task with minimal updates is parameterefficient fine-tuning (PEFT), where a pre-trained model is fine-tuned while only updating or adding a small number of parameters rather than all of the model’s parameters. モデルが最小限のアップデートで新しいタスクを実行するための追加パラダイムとして、パラメータ効率の細かいチューニング(peft)がある。
訳抜け防止モード: 追加のパラダイム モデルは最小限のアップデートで新しいタスクを実行できる パラメータ係数 fine - チューニング (PEFT ) で、事前訓練されたモデルでは、更新のみをチューニングする。 あるいは、モデルのすべてのパラメータではなく、少数のパラメータを追加します。
0.78
Recent methods have shown that it is possible to match the performance of fine-tuning the full model while only updating or adding a small fraction (e g 0.01%) of the full model’s parameters [13, 14]. 最近の手法では,全モデルのパラメータ [13, 14] のごく一部 (例 0.01%) を更新または追加するだけで,全モデルの微調整性能と一致できることが示されている。 0.87
Furthermore, certain PEFT methods allow mixed-task batches where different examples in a batch are processed differently [14], making both PEFT and ICL viable approaches for multitask models. さらに, PEFT法では, バッチ内の異なるサンプルを異なる処理で処理する混合タスクバッチが可能であるため, PEFT法とICL法の両方がマルチタスクモデルに対して実行可能なアプローチとなっている。 0.66
While the benefits of PEFT begin to address some of the shortcomings of fine-tuning (when compared to ICL), there has been relatively little focus on whether PEFT methods work well when very little labeled data is available. PEFTの利点は(ICLと比較して)微調整の欠点のいくつかに対処し始めているが、ラベル付きデータが少ない場合、PEFTメソッドがうまく機能するかどうかにはあまり注目されていない。 0.72
Our primary goal in this paper is to close this gap by proposing a recipe – i.e., a model, a PEFT method, and a fixed set of hyperparameters – that attains strong performance on novel, unseen tasks while only updating a tiny fraction of the model’s parameters. この論文の主な目標は、モデルパラメータのほんの一部を更新しながら、新しく見えないタスクで強力なパフォーマンスを実現するレシピー(モデル、ペフトメソッド、固定されたハイパーパラメータセット)を提案することで、このギャップを埋めることです。 0.66
Specifically, we base our approach on the T0 model [1], a variant of T5 [15] that has been fine-tuned on a multitask mixture of prompted datasets. 具体的には、提案手法はT5[15]の変種であるT0モデル[1]に基づいており、提案したデータセットのマルチタスク混合に基づいて微調整されている。 0.65
To improve performance on classification and multiplechoice tasks, we add unlikelihood [16, 17] and length normalization-based [4] loss terms. 分類と多重選択タスクの性能を向上させるために, 等式 [16, 17] と長さ正規化に基づく [4] 損失項を追加する。 0.73
In addition, we develop a PEFT method called (IA)3 that multiplies intermediate activations by learned vectors. さらに,学習ベクトルによって中間活性化を乗算するPEFT法(IA)3を開発した。 0.80
(IA)3 attains stronger performance than full-model fine-tuning while only updating a tiny fraction of model parameters. (IA)3は,少数のモデルパラメータを更新するだけで,フルモデルファインチューニングよりも高い性能が得られる。 0.75
Finally, we demonstrate the benefits of pre-training the (IA)3 parameters before fine-tuning [18, 19]. 最後に,(ia)3パラメータを[18,19]に微調整する前に事前トレーニングする利点を示す。 0.82
Our overall recipe, which we dub “T-Few”, attains significantly stronger performance than ICL (even against 16× larger models) and outperforms humans for the first time on the real-world few-shot learning benchmark RAFT [2] while requiring dramatically less compute and allowing for mixed-task batches during inference. 私たちのレシピは“t-few”と名付けられていますが、(16倍のモデルであっても)iclよりも大幅にパフォーマンスが向上し、現実世界の少数ショット学習ベンチマークであるraft [2]で人間を初めて上回っています。
訳抜け防止モード: われわれのレシピは、”T - Few ” だ。 ICLよりも大幅にパフォーマンスが向上する(16倍のモデルであっても)。 RAFT [2 ] で人間を初めて上回ります。 計算処理が劇的に少なくなり、推論中にタスクバッチが混在することを可能にします。
0.62
To facilitate the use of T-Few on new problems as well as future research on PEFT, we release our code.1 T-Few の新たな問題への活用と PEFT に関する今後の研究を容易にするため,コード.1 をリリースする。 0.72
After providing background on ICL and PEFT in the following section, we discuss the design of T-Few in section 3. 以下の節でICLとPEFTの背景を説明した後、第3節でT-Fewの設計について論じる。 0.68
In section 4, we present experiments comparing T-Few to strong ICL baselines. 第4節では,t-few と強い icl ベースラインの比較実験を行う。 0.66
Finally, we discuss related work and ideas for future work in sections 5 and 6. 最後に,第5節と第6節で今後の作業に関する作業とアイデアについて論じる。 0.67
2 VKQsoftmaxDenseNonli nearityDenseT0Susie loves her grandma's banana bread. 2 vkqsoftmaxdensenonli nearitydenset0susieはおばあちゃんのバナナパンが大好きです。 0.36
Susie called her grandma and asked her to send some. スージーはおばあちゃんに電話して送ってくれと頼んだ。 0.57
Grandma lived very far away. おばあちゃんは遠くに住んでいた。 0.43
A week passed and grandma surprised Susie by coming to visit. 1週間が経ち、おばあちゃんはスージーを訪ねて驚かせた。 0.57
What is a possible continuation for the story? その物語の継続可能性は何ですか。 0.67
Susie was so happy.Susie was upset. スージーは幸せだった スージーは動揺してた 0.51
(IA)3Losses used in T-Few (IA)3-Fewにおける損失 0.48
英語(論文から抽出)日本語訳スコア
2 Background In this section, we provide a brief overview of in-context learning and parameter-efficient fine-tuning, with a focus on characterizing the costs of each method. 2 背景 本節では,各手法のコストを特徴付けることに着目し,文脈内学習とパラメータ効率の良い微調整について概説する。 0.81
Specifically, we focus on the computation, memory, and on-disk storage costs of generating a prediction for an unlabeled example. 具体的には、ラベルのない例の予測を生成する計算、メモリ、ディスク上のストレージコストに焦点を当てます。 0.70
The realworld costs can vary somewhat depending on implementation and hardware, so we characterize costs in terms of FLOPs for computation and and bytes for memory and storage, respectively. 実世界のコストは、実装やハードウェアによって多少異なるため、計算のフロップとメモリとストレージのバイトという観点でコストを特徴付ける。 0.63
2.1 Few-shot in-context learning In-context learning (ICL), introduced and popularized by Radford et al [3] and Brown et al [4], aims to induce a model to perform a task by feeding in concatenated and prompted input-target examples (called “shots”) along with an unlabeled query example. 2.1Radford et al [3] と Brown et al [4] が導入し、普及した文脈内学習 (ICL) は、連結された入力ターゲットの例("shots" と呼ばれる)をラベルなしクエリの例とともにフィードすることでタスクを実行するモデルを誘導することを目的としている。 0.78
Taking the cycled letter task from Brown et al [4] as an example, a 4-shot input or context would be “Please unscramble the letters into a word, and write that word: asinoc = casino, yfrogg = froggy, plesim = simple, iggestb = biggest, astedro =”, for which the desired output would be “roasted”. 例えば、Brown et al [4] のサイクルされた文字タスクを例にとると、4ショットの入力またはコンテキストは"Please unscramble the letters into a word, and write that word: asinoc = casino, yfrogg = froggy, plesim = simple, iggestb = biggest, astedro =" となり、そこで所望の出力が"ロースト"される。 0.86
ICL induces an autoregressive language model to perform this task by feeding in the context and sampling from the model. ICLは、コンテキストに入力してモデルからサンプリングすることで、このタスクを実行する自動回帰言語モデルを誘導する。 0.67
For classification tasks, each label is associated with a string (e g “positive” and “negative” for sentiment analysis) and a label is assigned by choosing the label string that the model assigns the highest probability to. 分類タスクでは、各ラベルは文字列(感情分析では“ポジティブ”や“ネガティブ”など)に関連付けられ、モデルが最も高い確率を割り当てるラベル文字列を選択することでラベルが割り当てられる。 0.81
For multiple-choice tasks (e g choosing between N possible answers to a question), the model’s prediction is similarly determined by determining which choice is assigned the highest probability. 複数選択タスク(例えば、質問に対するN個の答えの選択など)に対して、モデルの予測は、どの選択が最も高い確率に割り当てられるかを決定することによって決定される。 0.74
The primary advantage of ICL is that it enables a single model to perform many tasks immediately without fine-tuning individual per-task models. ICLの主な利点は、1つのモデルが個々のタスク毎に微調整することなく、即座に多くのタスクを実行できることである。
訳抜け防止モード: ICLの主な利点は 個々のタスクモデルを微調整することなく、単一のモデルがすぐに多くのタスクを実行できる。
0.76
This also enables mixed-task batches, where different examples in a batch of data can correspond to different tasks by using different contexts in the input. これにより、データのバッチ内の異なる例が、入力内の異なるコンテキストを使用することで、異なるタスクに対応することができる。 0.65
ICL is also typically performed with only a limited number of labeled examples – called few-shot learning – making it a data-efficient way of enabling a model to perform a task. ICLは、通常、少数のラベル付き例(数ショット学習と呼ばれる)でのみ実行されるため、モデルがタスクを実行できるようにするデータ効率のよい方法である。 0.69
Despite these advantages, ICL comes with significant practical drawbacks: First, the need for the model to process labeled examples in the context before it makes each prediction dramatically increases the computational cost compared to processing the unlabeled example alone. 第一に、各予測がラベル付き例のみを処理するよりも計算コストを劇的に増加させる前に、ラベル付き例をコンテキスト内で処理する必要がある。
訳抜け防止モード: これらの利点にもかかわらず、iclには重大な実用上の欠点がある 第一に モデルの必要性は 各予測を行う前に,ラベル付きサンプルをコンテキスト内で処理する ラベルなしの例のみを処理する場合に比べて、計算コストが劇的に増加する。
0.64
Specifically, ignoring the quadratic complexity of self-attention operations in Transformer language models (which are typically small compared to the costs of the rest of the model [20]), processing the k training examples for k-shot ICL increases the computational cost by approximately k + 1 times compared to processing the unlabeled example alone. 具体的には、トランスフォーマー言語モデル(通常モデル[20]の他のコストと比べて小さい)における自己注意操作の二次的な複雑さを無視して、kショットICLのkトレーニング例を処理することで、ラベルなし例のみの処理に比べて約 k + 1 倍の計算コストが増大する。 0.74
Memory costs similarly scale approximately linearly with k, though during inference the memory costs are typically dominated by storing the model’s parameters. メモリコストも同様にkとほぼ線形にスケールするが、推論の間、メモリコストは一般的にモデルのパラメータを保存することで支配される。 0.75
Separately, there is a small amount of on-disk storage required for storing the in-context examples for a given task. 別として、タスクのインコンテキストの例を保存するのに必要なオンディスクストレージは少ない。 0.71
For example, storing 32 examples for a task where the prompted input and target for each example is 512 tokens long would require about 66 kilobytes of storage on disk (32 examples × 512 tokens × 32 bits). 例えば、各例の入力とターゲットが512トークンであるタスクに対して32個のサンプルを格納するには、ディスク上の約66キロバイトのストレージが必要となる(32例 × 512トークン × 32ビット)。 0.88
Beyond the aforementioned costs, it has been found that ICL has unintuitive behavior. 上記のコストを超えると、iclは直観的でない行動をとることが判明した。 0.55
For example, Zhao et al [12] showed that the ordering of examples in the context heavily influences the model’s predictions. 例えば、Zhao et al [12] は、文脈における例の順序付けがモデルの予測に大きな影響を及ぼすことを示した。 0.80
Min et al [9] showed that ICL can still perform well even if the labels of the in-context examples are swapped (i.e. made incorrect), which raises questions about whether ICL is really “learning” from the labeled examples or not. Min氏ら[9]は、インコンテキストの例のラベルがスワップされたとしても、ICLは依然としてうまく機能することを示した。
訳抜け防止モード: min et al [9 ] は icl がうまく機能することを示した。 in - コンテキストの例のラベルは交換される(つまり、正しくない)。 これは、ラベル付きの例からiclが本当に“学習”しているかどうか、という疑問を提起する。
0.63
Various approaches have been proposed to mitigate these issues. これらの問題を解決するために様々なアプローチが提案されている。 0.52
One way to lower the computational costs of ICL is to exploit the fact that decoder-only Transformer language models have a causal masking pattern, so the model’s activations for the context do not change when the unlabeled example changes. ICLの計算コストを下げる1つの方法は、デコーダのみのトランスフォーマー言語モデルが因果マスキングパターンを持っているという事実を活用することである。
訳抜け防止モード: ICLの計算コストを下げる一つの方法は、デコーダの事実を活用することである。 Transformer言語モデルだけが因果マスキングパターンを持っている。 したがって、ラベルのない例が変わると、コンテキストに対するモデルのアクティベーションは変わらない。
0.65
However, computing self-attention for the unlabeled input requires using the keys and values from the context, requiring them to be cached. しかし、ラベルのない入力に対する自己アテンションの計算には、コンテキストからキーと値を使用する必要があり、キャッシュする必要がある。 0.63
In an extreme case, 32-shot ICL with 512 input and target tokens per in-context example would result in over 144 gigabytes of cached key and value vectors for the GPT-3 model (32 examples × 512 tokens × 96 layers × 12288 dmodel × 32 bits each for the key and value vectors). 極端なケースとして、インコンテキストの例で512の入力とターゲットトークンを持つ32ショットのiclでは、gpt-3モデルで144ギガバイト以上のキャッシュされたキーと値ベクトル(32例 × 512トークン × 96レイヤ × 12288 dmodel × 32ビット)が発生する。 0.84
Storing these cached values on disk would therefore incur nontrivial storage costs. これらのキャッシュされた値をディスクに保存すると、非自明なストレージコストが発生する。 0.53
Separately, Min et al [21] proposed ensemble ICL, where instead of using the output probability from concatenating the k training examples, the output probabilities of the model on each training example (i.e. 1-shot ICL for each of the k examples) are multiplied together. 別途、min et al [21] はアンサンブル icl を提案し、k の訓練例の連結から出力確率を使用する代わりに、各訓練例(すなわち k の例ごとに 1-shot icl )におけるモデルの出力確率を乗算する。 0.79
This lowers the memory cost by a factor of k/2 but increases the computational cost by a factor of 2. これにより、メモリコストはk/2倍に削減されるが、計算コストは2倍に増加する。 0.65
In terms of task performance, Min et al [21] find that ensemble ICL outperforms the standard concatenative variant. タスクパフォーマンスに関しては、min et al [21] はアンサンブルiclが標準の結合型よりも優れていることを見出している。 0.49
3 3 0.42
英語(論文から抽出)日本語訳スコア
2.2 Parameter-efficient fine-tuning While standard fine-tuning updates all parameters of the pre-trained model, it has been demonstrated that it is possible to instead update or add a relatively small number of parameters during fine-tuning. 2.2 パラメータ効率の良い微調整 標準的な微調整は事前訓練されたモデルの全てのパラメータを更新するが、微調整中に比較的少数のパラメータを更新または追加できることが示されている。 0.72
Early methods proposed adding adapters [22–24], which are small feed-forward networks inserted between the layers in the pre-trained model whose parameters are updated during fine-tuning while the remainder of the pre-trained model is left fixed. 初期の手法では、微調整時にパラメータが更新されるプリトレーニングモデルのレイヤ間に挿入される小さなフィードフォワードネットワークであるアダプタ [22–24] を追加することを提案した。 0.81
Since then, various sophisticated PEFT methods have been proposed, including methods that choose a sparse subset of parameters to train [25, 26], produce low-rank updates [13], perform optimization in a lower-dimensional subspace [27], add low-rank adapters using hypercomplex multiplication [28], and more. それ以降,[25, 26] の訓練,低ランク更新[13] の生成,低次元部分空間[27] の最適化,超複素乗算[28] を用いた低ランクアダプタの追加など,様々な高度なPEFT手法が提案されている。 0.75
Relatedly, prompt tuning [14] concatenates learned continuous embeddings to the model’s input to induce it to perform a task and can be seen as a PEFT method [29]. 関連して、[14]はモデルの入力に連続的な埋め込みを学習し、タスクの実行を誘導し、PEFTメソッド[29]として見ることができる。 0.70
State-of-the-art PEFT methods can match the performance of fine-tuning all of the model’s parameters while updating only a tiny fraction (e g 0.01%) of the model’s parameters. State-of-the-the-art PEFTメソッドは、モデルのパラメータのごく一部(例えば0.01%)を更新しながら、モデルのパラメータをすべて微調整するパフォーマンスにマッチする。 0.82
A primary advantage of PEFT is that it drastically reduces the storage requirements for fine-tuned models. PEFTの主な利点は、微調整モデルのストレージ要求を大幅に削減できる点である。 0.73
In addition, certain PEFT methods straightforwardly allow mixed-task batches – for example, prompt tuning enables a single model to perform many tasks simply by concatenating different prompt embeddings to each example in the batch [14]. さらに、いくつかのpeftメソッドでは、例えば、プロンプトチューニングによって、1つのモデルが、バッチ[14]の各例に異なるプロンプト埋め込みを結合することによって、単に多くのタスクを実行できる。 0.68
On the other hand, other PEFT methods such as those that use sparse or low-rank updates do not make mixed-task batches convenient because they require a different set of parameters for each task. 一方、スパースやローランク更新のような他のPEFTメソッドは、タスクごとに異なるパラメータセットを必要とするため、ミックスタスクバッチを便利にしない。 0.65
Separately, different PEFT methods increase the computation and memory required to perform inference by different amounts. 異なるPEFT法は、異なる量で推論を行うために必要な計算量とメモリを増加させる。 0.66
For example, adapters effectively add additional (small) layers to the model, resulting in small but non-negligible increases in computational costs and memory. 例えば、アダプタはモデルに(小さな)レイヤーを効果的に追加するので、計算コストやメモリの増大は小さいが無視できない。 0.76
An additional cost incurred by PEFT is the cost of fine-tuning itself, which must be performed once and is then amortized as the model is used for inference. PEFTによる追加費用は微調整自体のコストであり、モデルが推論に使用されるため一度実行されなければならなくなる。 0.69
However, we will demonstrate that the increase in computation cost incurred by PEFT methods for fine-tuning and during inference is a small proportion of the inference cost required for ICL. しかし,PEFT法で微調整や推論を行う場合の計算コストの増加は,ICLに必要な推論コストのごく一部であることを示す。 0.72
Additionally, we will show that PEFT can be dramatically more computationally efficient during inference while achieving better accuracy than ICL. さらに,PEFTはICLよりも精度が高く,推論時に計算効率が劇的に向上することを示す。 0.70
3 Designing the T-Few Recipe Given that PEFT allows a model to be adapted to a new task with relatively small storage requirements and computational cost, we argue that PEFT presents a promising alternative to ICL. 3 T-Few Recipeの設計 PEFTが比較的少ないストレージ要件と計算コストでモデルを新しいタスクに適合させることができることを考えると、PEFTはICLに代わる有望な代替手段である。 0.81
Our goal is therefore to develop a recipe that allows a model to attain high accuracy on new tasks with limited labeled examples while allowing mixed-task batches during inference and incurring minimal computational and storage costs. そこで本研究の目的は,モデルが限定的なラベル付き例で新しいタスクを高精度に実行し,推論中に混合タスクのバッチを許容し,最小の計算・記憶コストを発生させることである。 0.68
By recipe, we mean a specific model and hyperparameter setting that provides strong performance on any new task without manual tuning or per-task adjustments. レシピによって、手動チューニングやタスクごとの調整なしに、新しいタスクに対して強力なパフォーマンスを提供する、特定のモデルとハイパーパラメータ設定を意味します。 0.59
In this way, we can ensure that our approach is a realistic option in few-shot settings where limited labeled data is available for evaluation [30, 31]. このようにして、制限付きラベル付きデータが評価に利用できる数ショット設定で、我々のアプローチが現実的な選択肢であることを保証できます [30, 31]。 0.70
3.1 Model and Datasets As a first step, we must choose a pre-trained model. 3.1 モデルとデータセット 最初のステップとして、事前訓練されたモデルを選択する必要があります。 0.59
Ideally, the model should attain high performance on new tasks after fine-tuning on a limited number of labeled examples. 理想的には、限られた数のラベル付き例を微調整した後、新しいタスクで高いパフォーマンスを達成する必要がある。
訳抜け防止モード: 理想的には、モデルは問題なく新しいタスクで高いパフォーマンスを達成するべきである。 限られた数のラベル付き例をチューニングします
0.61
In preliminary experiments applying PEFT methods to different pre-trained models, we attained the best performance with T0 [1]. 異なる事前学習モデルにPEFT法を適用した予備実験では,T0[1]で最高の性能を得た。 0.77
T0 is based on T5 [15], an encoder-decoder Transformer model [32] that was pre-trained via a masked language modeling objective [33] on a large corpus of unlabeled text data. t0 は t5 [15] に基づいており、[32] エンコーダ-デコーダトランスフォーマーモデルであり、[33] はラベルなしテキストデータの大きなコーパス上にマスク付き言語モデリング目的 [33] で事前訓練された。 0.70
T0 was created by fine-tuning T5 on a multitask mixture of datasets in order to enable zero-shot generalization, i.e. the ability to perform tasks without any additional gradient-based training. T0は、ゼロショットの一般化を可能にするため、マルチタスクのデータセットでT5を微調整することで作成された。 0.60
Examples in the datasets used to train T0 were prompted by applying the prompt templates from the Public Pool of Prompts (P3 [34]), which convert each example in each dataset to a prompted text-to-text format where each label corresponds to a different string. t0のトレーニングに使用されたデータセットの例では、プロンプトの公開プール(p3 [34])からプロンプトテンプレートを適用して、各データセットの各サンプルを、各ラベルが異なる文字列に対応するプロンプトテキストからテキストへのフォーマットに変換する。 0.79
For brevity, we omit a detailed description of T0 and T5; interested readers can refer to Sanh et al [1] and Raffel et al [15]. 興味のある読者はSanh et al [1] や Raffel et al [15] を参照することができる。
訳抜け防止モード: 簡潔性については、T0 と T5 の詳細な記述を省略する。 興味のある読者はSanh et al [ 1 ] と Raffel et al [ 15 ] を参照できる。
0.75
T0 was released in three billion and eleven billion parameter variants, referred to as “T0-3B” and simply “T0” respectively. t0は、それぞれ“t0-3b”と“t0”と呼ばれる30億と100億のパラメータ変種でリリースされた。 0.68
In this section (where our goal is to design the T-Few recipe through extensive experimentation), we use T0-3B to reduce computational costs. この節(広範な実験を通じてt-fewレシピを設計することを目的としています)では、計算コストを削減するためにt0-3bを使用します。
訳抜け防止モード: 本項(場所) 私たちのゴールは、広範な実験を通じてT - レシピを設計することです。 T0 - 3B を用いて計算コストを削減する。
0.61
For all models and experiments, we use Hugging Face Transformers [35]. すべてのモデルと実験のために、Hugging Face Transformer[35]を使用します。 0.72
While T0 was designed for zero-shot generalization, we will demonstrate that it also attains strong performance after fine-tuning with only a few labeled examples. T0はゼロショットの一般化のために設計されたが、いくつかのラベル付き例で微調整した後も高い性能が得られることを示す。 0.58
To test T0’s generalization, Sanh et al [1] chose a set of tasks (and corresponding datasets) to hold out from the multitask training mixture – specifically, sentence completion (COPA [36], H-SWAG [37], and Story Cloze [38] datasets), t0 の一般化をテストするため、sanh と al [1] は、マルチタスクトレーニング混合物(特に、文補完(copa [36], h-swag [37], story cloze [38] データセット)から保持する一連のタスク(および対応するデータセット)を選択した。 0.80
4 4 0.42
英語(論文から抽出)日本語訳スコア
natural language inference (ANLI [39], CB [40], and RTE [41]), coreference resolution (WSC [42] and Winogrande [43]), and word sense disambiguation (WiC [44]). 自然言語推論(anli [39], cb [40], rte [41])、コリファレンス解像度(wsc [42] と winogrande [43])、単語感覚の曖昧さ解消(wic [44])。 0.59
Evaluation of generalization capabilities can then be straightforwardly done by measuring performance on these held-out datasets. 一般化能力の評価は、これらの保持されたデータセットのパフォーマンスを測定することで、簡単に行える。 0.54
We also will later test T-Few’s abilities in the RAFT benchmark [2] in section 4.3, a collection of unseen “real-world” few-shot tasks with no validation set and a held-out test set. また、第4.3節でT-Fewの能力をRAFTベンチマーク[2]でテストします。
訳抜け防止モード: また、後日、セクション4.3のRAFTベンチマーク[2 ]でT - の能力をテストします。 見えない「現実の世界」のごく少数のショットタスクの集合 and a held-out test set.
0.73
To ease comparison, we use the same number of few-shot training examples for each dataset as Brown et al [4], which varies from 20 to 70. 比較を容易にするために、各データセットに対して、20から70まで変化するBrown et al [4]と同じ数である、数発のトレーニング例を使用します。
訳抜け防止モード: 比較しやすくする。 データセット毎に、Brown et al [ 4 ] と同じ数の - ショットトレーニングの例を使用します。 20から70まで様々です
0.79
Unfortunately, the few-shot dataset subsets used by Brown et al [4] have not been publicly disclosed. 残念なことに、brown et al [4] が使っている数少ないデータセットサブセットは、公開されていない。 0.58
To allow for a more robust comparison, we therefore constructed five few-shot datasets by sampling subsets with different seeds and report the median and interquartile range. よりロバストな比較を可能にするため,異なる種子のサブセットをサンプリングし,中央値および中間値の範囲を報告することにより,5つのショットデータセットを構築した。 0.65
We prompt examples from each dataset using the prompt templates from P3 Bach et al [34], using a randomly-sampled prompt template for each example at each step. p3 bach et al [34]のプロンプトテンプレートを使用して、各ステップでランダムにサンプリングされたプロンプトテンプレートを使用して、各データセットから例をプロンプトします。 0.66
Unless otherwise stated, we train our model for 1K steps with a batch size of 8 and report performance at the end of training. そうでなければ、バッチサイズ8の1Kステップでモデルをトレーニングし、トレーニングの終了時にパフォーマンスを報告します。 0.60
For evaluation, we use “rank classification”, where the model’s log-probabilities for all possible label strings are ranked and the model’s prediction is considered correct if the highest-ranked choice is the correct answer. 評価には"ランク分類"を使用し、全ての可能なラベル文字列に対するモデルのログ確率をランク付けし、最高ランク選択が正しい答えである場合、モデルの予測を正しいものとみなす。 0.83
Rank classification evaluation is compatible with both classification and multiplechoice tasks. ランク分類評価は、分類タスクと多重選択タスクの両方と互換性がある。 0.57
Since model performance can vary significantly depending on the prompt template used, we report the median accuracy across all prompt templates from P3 and across few-shot data subsets for each dataset. モデル性能は、使用するプロンプトテンプレートによって大きく異なるため、P3からのすべてのプロンプトテンプレートと、各データセットの少数ショットデータサブセットの中央値精度を報告する。 0.78
For all tasks and datasets, we report the accuracy on the test set or validation set in the event that the test labels are not public (e g on all SuperGLUE tasks). すべてのタスクやデータセットに対して、テストラベルが公開されていない場合(例えばすべてのSuperGLUEタスク)に、テストセットまたは検証セットの正確さを報告します。 0.81
In the main text, we report median accuracy across the nine datasets mentioned above. 本文では,上記の9つのデータセットの中央値の精度について報告する。 0.64
Detailed results on each individual dataset are reported in the appendices. 各データセットの詳細な結果は付録に記載されている。 0.73
3.2 Unlikelihood Training and Length Normalization Before investigating PEFT methods, we first explore two additional loss terms to improve the performance of few-shot fine-tuning of language models. 3.2 PEFT法の研究に先立って,数発の言語モデルの微調整性能を向上させるために,まず2つの損失項について検討する。 0.67
Language models are normally trained with cross-entropy loss: 言語モデルは、通常、クロスエントロピー損失で訓練される。 0.58
log p(yt|x, y<t) log p(yt|x, y<t) 0.49
(1) LLM = − 1 T (1) LLM = − 1 T 0.43
T(cid:88) t=1 T(第88回) t=1 である。 0.45
where the model is trained to increase the probability of the correct target sequence y = (y1, y2, . . . , yT ) given the input sequence x. ここでは、入力シーケンス x を与えられた正しいターゲットシーケンス y = (y1, y2, . . . . , yT ) の確率を上げるよう訓練する。 0.79
For evaluation, we use rank classification (described in section 3.1) which depends on both the probability that the model assigns to the correct choice as well as the probabilities assigned by the model to the incorrect choices. 評価には、モデルが正しい選択を割り当てる確率と、間違った選択にモデルが割り当てる確率の両方に依存するランク分類(セクション3.1)を用いる。 0.69
To account for this during training, we consider adding an unlikelihood loss [16, 17]: トレーニング中にこれを考慮し、異例の損失[16, 17]を加えることを検討する。 0.66
LUL = − (cid:80)N LUL = − (cid:80)n 0.41
n=1 (cid:80)T (n) (cid:80)N t=1 log(1 − p(ˆy(n) n=1 である。 (cid:80)T (n) (cid:80)N t=1 log(1 − p(sy(n)) 0.38
i n=1 T (n) 私は n=1 T (n) 0.49
|x, ˆy(n) <t )) |x, sy(n) <t ) 0.74
(2) which discourages the model from predicting tokens from incorrect target sequences, where ˆy(n) = (ˆy1, ˆy2, . . . , ˆyT (n)) is the n-th of N incorrect target sequences. (2) これは、不正なターゲットシーケンスからトークンを予測するのを阻止するものであり、ここでは y(n) = ( y1, sy2, . . . , syT (n)) は、N の不正なターゲットシーケンスの n 番目のものである。
訳抜け防止モード: (2) これは不正なターゲットシーケンスからのトークンの予測からモデルを妨げます。 ここで y(n ) = ( sy1, sy2, .) となる。 yT ( n ) ) は、N 個の不正なターゲット列の n - th である。
0.57
We hypothesize that adding LUL will improve results on rank classification because the model will be trained to assign lower probabilities to incorrect choices, thereby improving the chance that the correct choice is ranked highest. LULを追加することでランク分類結果が改善されるという仮説を立てる。なぜならモデルが低い確率を誤った選択に割り当てるように訓練され、正しい選択が最上位になる確率が向上するからである。 0.72
The possible target sequences for a given training example can have significantly different lengths, especially in multiple-choice tasks. 与えられたトレーニング例の可能なターゲットシーケンスは、特に複数の選択タスクにおいて、大きく異なる長さを持つことができる。 0.60
Ranking each choice based on probability can therefore “favor” shorter choices because the model’s assigned probability to each token is ≤ 1. したがって、確率に基づいて各選択をランク付けすることは、各トークンに割り当てられた確率が ≤ 1 であるため、より短い選択を「好ましい」ことができる。
訳抜け防止モード: 確率に基づく各選択のランク付け したがって、より短い選択を"好む"ことができます 各トークンに対するモデルの割り当て確率は ≤ 1 である。
0.78
To rectify this, we consider using length normalization when performing rank classification, which divides the model’s score on each possible answer choice by the number of tokens in the choice (as used in GPT-3 [4]). これを正すために, ランク分類を行う際の長さ正規化について検討する(gpt-3 [4]で用いられるように)。
訳抜け防止モード: これを正すために gpt-3 [ 4 ] のように)選択されたトークンの数によって、可能な回答選択ごとにモデル のスコアを分割するランク分類を行う際に、長さ正規化を使うことを検討する。
0.79
When using length normalization during evaluation, we introduce an additional loss term during training that more closely reflects length-normalized evaluation: First, we compute the length-normalized log probability of a given output sequence as: 評価中に長さ正規化を使用する場合、トレーニング中にさらに損失項を導入し、長さ正規化評価をより詳細に反映する: まず、与えられた出力列の長さ正規化ログ確率を次のように計算する。
訳抜け防止モード: 評価中に長さ正規化を使用する場合、トレーニング中に、より深く長さを反映する損失項を導入する。 与えられた出力シーケンスの長さ-正規化ログ確率を :
0.80
β(x, y) = 1 T β(x, y) = 1T 0.40
log p(yt|x, y<t) log p(yt|x, y<t) 0.49
(3) T(cid:88) (3) T(第88回) 0.50
t=1 5 t=1 である。 5 0.37
英語(論文から抽出)日本語訳スコア
Then, we maximize the length-normalized log probability of the correct answer choice via a standard softmax cross-entropy loss: 次に、標準ソフトマックスクロスエントロピー損失により、正答選択の長さ正規化ログ確率を最大化する。 0.74
LLN = − log LLN = − log 0.42
exp(β(x, y)) +(cid:80)N exp(β(x, y)) +(cid:80)N 0.48
exp(β(x, y)) exp(β(x, y)) 0.42
n=1 exp(β(x, ˆy(n))) n=1 exp(β(x, sy(n))) 0.95
(4) When training a model with LLM, LUL, and LLN, we simply sum them. (4) LLM、LUL、LLNでモデルをトレーニングする場合、単純にそれらを要約する。 0.61
This avoids introducing any hyperparameters that would be problematic to tune in the few-shot setting (where realistically-sized validation sets are tiny by necessity [30, 31]). これにより、最小限の設定で調整するのが問題となるハイパーパラメータ(現実的にサイズが小さい検証セット [30, 31])の導入は避けられる。 0.78
We report the results of fine-tuning all of T0-3B’s parameters with and without length normalization on all datasets in appendix C. We find that adding LLN improves the accuracy from 60.7% to 62.71% and including both LUL and LLN provides a further improvement to 63.3%. 我々は、T0-3Bのパラメータの全てを、付録Cの全データセットで、長さ正規化せずに微調整した結果を報告する。LLNを追加することで、精度が60.7%から62.71%に向上し、LULとLLNの両方が63.3%に向上する。
訳抜け防止モード: 我々は、T0 - 3B のパラメータを全て微調整した結果を報告する。 LLNを追加することで、精度が60.7%から62.71%に向上することがわかった。 LULとLLNはいずれも63.3%に改善されている。
0.67
Since these loss terms improve performance without introducing any additional hyperparameters, we include them in our recipe and use them in all following experiments. これらの損失項は、追加のハイパーパラメータを導入することなく性能を向上させるため、レシピに含め、以下の実験で使用する。 0.62
3.3 Parameter-efficient fine-tuning with (IA)3 In order to compare favorably to few-shot ICL, we need a PEFT method that has the following properties: First, it must add or update as few parameters as possible to avoid incurring storage and memory costs. 3.3 パラメータ効率の良い (IA)3 による微調整 少数ショット ICL と比較するためには,以下の特性を持つPEFT メソッドが必要である。
訳抜け防止モード: 3.3 パラメーター - 効率の良いファインチューニング (ia)3 で、少数のショット icl と比較する。 以下の特性を持つpeftメソッドが必要です。 まず、ストレージとメモリコストの増大を避けるために、できるだけ少数のパラメータを追加または更新する必要があります。
0.68
Second, it should achieve strong accuracy after few-shot training on new tasks. 第二に、新しいタスクで数発の訓練をした後、高い精度を達成する。 0.51
Finally, it must allow for mixed-task batches, since that is a capability of ICL. 最後に、iclの機能であるため、混合タスクバッチを可能にする必要がある。 0.59
In order to easily enable mixed-task batches, a PEFT method should ideally not modify the model itself. 混合タスクのバッチを簡単に有効化するために、PEFT法は理想的にはモデル自体を変更するべきではない。 0.57
Otherwise, each example in a batch would effectively need to be processed by a different model or computational graph. そうでなければ、バッチの各例は、異なるモデルや計算グラフによって効果的に処理される必要がある。 0.61
A more convenient alternative is provided by methods that directly modify the activations of the model since this can be done independently and cheaply to each example in the batch according to which task the example corresponds to. より便利な代替手段は、モデルのアクティベーションを直接変更するメソッドによって提供される。これは、サンプルが対応するタスクに応じて、バッチの各例に対して独立かつ安価に行うことができるためである。 0.60
Prompt tuning and prefix tuning methods [14, 45] work by concatenating learned vectors to activation or embedding sequences and are therefore examples of activation-modifying PEFT methods that allow for mixed-task batches. プロンプトチューニングおよびプレフィックスチューニング手法 [14, 45] は、学習ベクトルを活性化または埋め込みシーケンスに結合することにより動作するため、混合タスクバッチを可能にする活性化修飾PEFT法の例である。 0.70
However, as we will discuss later, we were unable to attain reasonable accuracy with prompt tuning and found that the more performant PEFT methods did not allow for mixed-task batches. しかし、後述するように、即時チューニングでは正確な精度が得られず、より高性能なPEFT法では混合タスクのバッチが不可能であることが判明した。 0.59
We therefore developed a new PEFT method that meets our desiderata. そこで我々は,新たなPEFT法を開発した。 0.74
As an alternative, we explored element-wise multiplication (i.e. rescaling) of the model’s activations against a learned vector. 代替として,学習ベクトルに対するモデルのアクティベーションの要素毎の乗算(つまり再スケーリング)について検討した。 0.79
Specifically, we consider adaptation of the form l (cid:12) x where l ∈ Rd is a learned task-specific vector, (cid:12) represents element-wise multiplication, and x ∈ RT×d is a length-T sequence of activations. 具体的には、l ∈ Rd を学習されたタスク固有ベクトルとし、(cid:12) を要素ワイド乗算を表し、x ∈ RT×d をアクティベーションの長さ-T 列とする l (cid:12) x の適応を考える。 0.67
We use “broadcasting notation” [46] so that the (i, j)th entry of l(cid:12)x is ljxi,j. broadcasting notation” [46] を使って l(cid:12)x の (i, j) 番目のエントリが ljxi,j になるようにします。 0.80
In preliminary experiments, we found it was not necessary to introduce a learned rescaling vector for each set of activations in the Transformer model. 予備実験では,Transformerモデルのアクティベーションセット毎に学習された再スケーリングベクトルを導入する必要はないことがわかった。 0.79
Instead, we found it was sufficient to introduce rescaling vectors on the keys and values in self-attention and encoder-decoder attention mechanisms and on the intermediate activation of the position-wise feed-forward networks. その代わりに、自己アテンションおよびエンコーダ・デコーダのアテンション機構におけるキーと値のリスケーリングベクトルの導入や、位置対応フィードフォワードネットワークの中間活性化に十分であることがわかった。 0.76
Specifically, using the notation from Vaswani et al [32], we introduce three learned vectors lk ∈ Rdk, lv ∈ Rdv, and lff ∈ Rdff , which are introduced into the attention mechanisms as: (lv (cid:12) V ) 具体的には、Vaswani et al [32] の表記を用いて、3つの学習されたベクトル lk ∈ Rdk, lv ∈ Rdv, lff ∈ Rdff を導入する。
訳抜け防止モード: 具体的には、vaswani et al [32 ]の表記を用いる。 3つの学習ベクトル lk ∈ rdk, lv ∈ rdv を導入する。 lff ∈ rdff は 注意機構に ( lv ( cid:12 ) v) として導入される。
0.82
(cid:18) Q(lk (cid:12) K T ) (cid:18) Q(lk (cid:12) K T) 0.44
softmax (cid:19) ソフトマックス (cid:19) 0.50
√ dk and in the position-wise feed-forward networks as (lff (cid:12) γ(W1x))W2, where γ is the feed-forward network nonlinearity. √ dk また、(lff (cid:12) γ(w1x))w2 のような位置方向フィードフォワードネットワークでは、γ はフィードフォワードネットワークの非線形性である。 0.50
We introduce a separate set of lk, lv, and lff vectors in each Transformer layer block. 各変圧器層ブロックに lk, lv, lff ベクトルの別セットを導入する。 0.70
This adds a total of L(dk + dv + dff ) new parameters for a L-layer-block Transformer encoder and L(2dk + 2dv + dff ) (with factors of 2 accounting for the presence of both self-attention and encoder-decoder attention) for a L-layer-block decoder. これにより、L層ブロックトランスフォーマーエンコーダとL(2dk + 2dv + dff )に対するL(dk + dv + dff )の新しいパラメータ(L層ブロックデコーダに対する自己アテンションとエンコーダ-デコーダの両方の存在を考慮に入れた2つの因子)が新たに追加された。 0.72
lk, lv, and lff are all initialized with ones so that the overall function computed by the model does not change when they are added. lk, lv, lff はすべて 1 で初期化され、モデルによって計算された全体の関数が加算されると変化しない。 0.79
We refer to our method as (IA)3, which stands for “Infused Adapter by Inhibiting and Amplifying Inner Activations”. 本手法は,「内的活動の抑制と増幅による拡散適応」を意味する (IA)3 と呼ぶ。 0.63
(IA)3 makes mixed-task batches possible because each sequence of activations in the batch can be separately and cheaply multiplied by its associated learned task vector. (ia)3は、バッチ内の各アクティベーションシーケンスを、関連する学習タスクベクトルによって別々に安価に乗算できるため、混合タスクバッチを可能にする。 0.70
We also note that, in the event that a model will only be used on a single task, the modifications introduced by (IA)3 can also be applied to weight matrices permanently so that no elementwise multiplication is required and the model’s architecture remains unchanged. また、モデルが1つのタスクでのみ使用される場合、(ia)3で導入された修正は、要素ごとの乗算が不要で、モデルのアーキテクチャが変更されないように、重量行列にも永久に適用できる点にも注意する。 0.70
This is thanks to the fact that the element-wise multiplications performed in (IA)3 always co-occur with a matrix multiplication, and これは、(IA)3で実行される要素ワイド乗法が常に行列乗法と共起しているという事実による。
訳抜け防止モード: これは事実のおかげです IA)3で実行される賢い乗算が常にcoである要素は、行列乗算と共に起こる
0.69
6 6 0.43
英語(論文から抽出)日本語訳スコア
l (cid:12) W x = (l (cid:12) W )x. l (cid:12) W x = (l (cid:12) W )x。 0.46
In this case, our method incurs no additional computational cost compared to the original model. この場合,本手法では,原モデルと比較して計算コストが増大しない。 0.77
To validate (IA)3, we compare it to a large variety of existing adaptation methods in our setting of fine-tuning T0-3B on few-shot datasets from held-out tasks. IA)3の有効性を検証するため,保持タスクからの少数ショットデータセットに対する微調整T0-3Bの設定において,既存の多種多様な適応手法と比較した。 0.67
Specifically, we compare against eight strong baseline methods: BitFit [47] which updates only the bias parameters; Adapters [23] which introduce task-specific layers after the self-attention and position-wise feed-forward networks; Compacter and Compacter++ [28] which improve upon adapters by using low-rank matrices and hypercomplex multiplication; prompt tuning [14] which learns task-specific prompt embeddings that are concatenated to the model’s input; FISH Mask [26] which chooses a subset of parameters to update based on their approximate Fisher information; Intrinsic SAID [27] which performs optimization in a low-dimensional subspace; and LoRA [13] which assigns low-rank updates to parameter matrices. Specifically, we compare against eight strong baseline methods: BitFit [47] which updates only the bias parameters; Adapters [23] which introduce task-specific layers after the self-attention and position-wise feed-forward networks; Compacter and Compacter++ [28] which improve upon adapters by using low-rank matrices and hypercomplex multiplication; prompt tuning [14] which learns task-specific prompt embeddings that are concatenated to the model’s input; FISH Mask [26] which chooses a subset of parameters to update based on their approximate Fisher information; Intrinsic SAID [27] which performs optimization in a low-dimensional subspace; and LoRA [13] which assigns low-rank updates to parameter matrices.
訳抜け防止モード: 具体的には、バイアスパラメータのみを更新するbitfit [ 47 ]、タスク固有のレイヤを自己の後に導入する adapter [ 23 ] という、8つの強力なベースラインメソッドと比較する。 -注意・位置- wise feed - forward networks ; compacter++ と compacter++ [28] 低階行列と超複素乗算によるアダプタの改善 タスクを学習するプロンプトチューニング [14 ] - モデル入力に連結された特定のプロンプト埋め込み ; fish mask [26 ] 近似フィッシャー情報に基づいて更新するパラメータのサブセットを選択する ; 低次元部分空間で最適化を行う内在的に言う[27]; パラメータ行列に低ランク更新を割り当てるlora [13]。
0.86
Additionally, we include the simple baselines of full-model fine-tuning and updating only the layer normalization parameters. さらに、フルモデルの微調整とレイヤー正規化パラメータのみの更新の単純なベースラインが含まれています。 0.68
For certain methods that allow changing the number of parameters updated or added, we report results for different parameter budgets: 0.2% and 0.02% sparsity for FISH Mask, 10 and 100 learned prompt vectors for prompt tuning, and 20,000- or 500,000-dimensional subspaces for Intrinsic SAID. パラメータの更新や追加を許容する特定の方法について,FISH Maskでは0.2%,0.02%,即時チューニングでは10と100の学習プロンプトベクトル,内在型SAIDでは20,000,500,000のサブスペースのパラメータ予算について報告する。 0.79
The results are shown in fig. 結果は図に示されています。 0.72
2, with detailed per-dataset results in appendix D. We find that (IA)3 is the only method that attains higher accuracy than the full-model-fine-tuning baseline. 我々は、(IA)3がフルモデルファインチューニングベースラインよりも高い精度を達成する唯一の方法であることを確認した。
訳抜け防止モード: データセット毎の詳細な結果が付録Dに表示される。 IA)3は、フル-モデルファイン-チューニングベースラインよりも高い精度を達成する唯一の方法である。
0.65
While other PEFT methods (e g Intrinsic SAID and prompt tuning) update or introduce fewer parameters, (IA)3 performs considerably better. 他のPEFTメソッド(例えば、内在的なSAIDと即時チューニング)は、より少ないパラメータを更新または導入するが、(IA)3は、かなり性能が良い。 0.62
Our results and setting differ with some past work on the PEFT methods we compare against. 我々の結果と設定は、私たちが比較したPEFT法に関する過去の研究と異なる。 0.64
Mahabadi et al [28] report that Compacter and Compacter++ outperform full-model fine-tuning, including in the few-shot setting. mahabadi氏ら[28]は、コンパクトでコンパクトな++は、少数の設定を含むフルモデルの微調整よりも優れていると報告している。
訳抜け防止モード: mahabadi et al [28]その報告 compacterとcompacter++はフル-モデルファイン-チューニングに勝っている。
0.64
Lester et al [14] found that prompt tuning could match full-model fine-tuning, and in subsequent work Wei et al [48] found that prompt tuning performed well when applied to a multitask fine-tuned model in the few-shot setting. lester et al [14] は、プロンプトチューニングがフルモデルの微調整と一致することを見出し、その後の研究でwei et al [48] は、少数ショット設定でマルチタスクの微調整モデルに適用すると、プロンプトチューニングがうまく機能することを発見した。 0.60
In both cases, we experimented with various hyperparameter choices to try to match past results. いずれの場合も,過去の結果と一致させるために,様々なハイパーパラメータの選択を試みた。 0.64
We hypothesize the disagreement comes from us using a different model and different datasets. 異なるモデルと異なるデータセットを使って、意見の不一致を仮説化します。 0.67
For prompt tuning specifically, we noticed that the validation set performance could fluctuate wildly over the course of training, hinting at possible optimization issues. 特に迅速なチューニングを行うには、トレーニングの過程でバリデーションセットのパフォーマンスが大幅に変動し、最適化の問題が示唆されていることに気付きました。 0.57
Figure 2: Accuracy of different parameterefficient methods when applied to few-shot finetuning of T0-3B. 図2:T0-3Bの少数ショット微調整に適用した場合のパラメータ係数の異なる手法の精度。 0.58
Methods that were evaluated using different parameter budgets are represented with larger and smaller markers representing more or less parameters updates. 異なるパラメータ予算を用いて評価されたメソッドは、多かれ少なかれパラメータ更新を表す大きくより小さなマーカーで表現される。 0.76
7 Figure 3: Accuracy of different few-shot learning methods. 7 図3: 異なる少数ショット学習方法の精度。 0.59
T-Few uses (IA)3 for parameterefficient fine-tuning of T0, T0 uses zero-shot learning, and T5+LM and the GPT-3 variants use few-shot in-context learning. T-Fewは(IA)3を使ってT0のパラメータ係数を微調整し、T0はゼロショット学習、T5+LMとGPT-3は少数ショットインコンテキスト学習を使用する。 0.57
The x-axis corresponds to inference costs; details are provided in section 4.2. x軸は推論コストに対応しており、詳細はセクション4.2に記載されている。 0.54
BF=H=AJAHIKF@=JA@###$$#)?? BF=H=AJAHIKF@=JA@###$$#)?? 0.37
KH=? O)F=H=AJAHI1)4)*EJ.EJ=OAHH+F=? KH=? ej.ej,ej.ej.=oah,h,+,f=? 0.32
JAH+F=? JAH2HFJ6KEC)@=FJAH.150=I1JHEIE? JAH+aF=? 略称:jahh.150)。 0.48
5)1, ! 5)1, ! 0.99
"#. 2IFAHAN=FA###$$#%)?? "#. 略して「##」は「##」の意)。 0.31
KH=? O6. AM66#/26! KH=? O6。 6月6日 - AM6! 0.45
$%*/26! $%*/26! 0.47
! */26! ! */26! 0.41
%#* %#* 0.42
英語(論文から抽出)日本語訳スコア
3.4 Pre-training (IA)3 In recent work, Gu et al [18], Vu et al [19] showed that pre-training the prompt embeddings in prompt tuning can improve performance when fine-tuning on downstream few-shot tasks. 3.4 事前トレーニング(ia)3 最近の研究で、gu et al [18], vu et al [19] は、プロンプト埋め込みをプロンプトチューニングで事前トレーニングすることで、下流の少数タスクの微調整時のパフォーマンスが向上することを示した。 0.60
For pretraining, Gu et al [18] use a suite of self-supervised tasks applied to unlabeled text data, and Vu et al [19] consider using embeddings from a separate task or multitask mixture. 事前トレーニングのために、gu et al [18] はラベルなしのテキストデータに適用された一連の自己監督タスクを使用し、vu et al [19] は別のタスクまたはマルチタスクの混合物からの埋め込みの使用を検討します。 0.62
We follow Vu et al [19] and simply pre-train the new parameters introduced by (IA)3 on the same multitask mixture used to train T0. Vu et al [19]に従い、(IA)3で導入された新しいパラメータをT0のトレーニングに使用するのと同じマルチタスクミックスで事前トレーニングする。 0.71
We pre-train for 100,000 steps with a batch size of 16 before fine-tuning the (IA)3 parameters on each individual downstream dataset. 我々は、各下流データセットの(IA)3パラメータを微調整する前に、バッチサイズ16の10万ステップを事前トレーニングする。 0.66
A full comparison of accuracy with and without pre-training (IA)3 is detailed in E. We find that pre-training improves fine-tuned accuracy from 64.6 to 65.8 and therefore add it to our recipe. プレトレーニング(ia)3とプレトレーニング(ia)3との精度の完全な比較をe。プレトレーニングは、64.6から65.8までの微調整精度を改善し、レシピに追加する。 0.60
3.5 Combining the ingredients To summarize the above results, the T-Few recipe is defined as follows: We use the T0 model as a backbone. 3.5 成分の組み合わせ 上記の結果を要約するために、T-Fewのレシピは次のように定義されている。 0.66
We add (IA)3 for downstream task adaptation and use parameters initialized from pre-training (IA)3 on the same multitask mixture used for T0. ダウンストリームタスク適応のための(IA)3を追加し、T0と同じマルチタスクミックス上で事前学習(IA)3から初期化したパラメータを使用します。 0.67
As an objective, we use the sum of a standard language modeling loss LLM, an unlikelihood loss LUL for incorrect choices, and a lengthnormalized loss LLN. 目的として、標準言語モデリング損失 LLM と、不適切な選択に異義性損失 LUL と、長さ正規化損失 LLN の和を用いる。 0.82
We train for 1,000 steps with a batch size of 8 sequences using the Adafactor optimizer [49] with a learning rate of 3e−3 and a linear decay schedule with a 60-step warmup. 学習速度3e−3のAdafactor Optimizationr[49]と60ステップウォームアップの線形減衰スケジュールを用いて,バッチサイズ8シーケンスの1,000ステップのトレーニングを行う。 0.74
We apply prompt templates to downstream datasets during training and inference to convert each example into an instructive text-to-text format. トレーニングや推論中に、プロンプトテンプレートをダウンストリームデータセットに適用し、各サンプルをインストラクティブなテキスト-テキストフォーマットに変換する。 0.73
Importantly, we apply this recipe to every downstream dataset in exactly the same way without per-dataset hyperparameter tuning or modifications. 重要なのは、このレシピをデータセットごとのハイパーパラメータチューニングや修正なしに、すべてのダウンストリームデータセットにまったく同じ方法で適用することです。 0.57
This makes the recipe a realistic option for few-shot learning settings where validation sets are tiny by definition [30, 31]. これにより、バリデーションセットが定義によって小さい(30, 31])、最小限の学習設定では、レシピが現実的な選択肢になります。
訳抜け防止モード: これでレシピが現実的な選択肢になる - ショット学習の設定 検証セットは定義によって小さい[30,31].
0.83
4 Outperforming ICL with T-Few Having designed and established the T-Few recipe on the T0-3B model, we now apply it to T0 (with eleven billion parameters) and compare performance to strong few-shot ICL methods. 4) T0-3BモデルでT-Fewのレシピを設計,確立し,T0(100億のパラメータを持つ)に適用し,強力な小ショットICL法と比較した。 0.77
We do not make any modifications to the T-Few recipe to account for the change in model size. モデルサイズの変更を考慮したT-Fewレシピの変更は一切行いません。 0.68
4.1 Performance on T0 asks First, we evaluate T-Few on the datasets that were held out from T0’s training mixture, comparing to: 4.1 T0のパフォーマンスを問う まず、T0のトレーニングミックスから得られたデータセットのT-Fewを評価する。 0.77
T0. To measure the improvement in performance conferred through parameter-efficient few-shot learning, we compare to zero-shot evaluation using T0 itself. T0。 パラメータ効率のよいマイナショット学習による性能改善を計測するために,t0自体を用いたゼロショット評価と比較した。 0.55
In preliminary experiments, we found that T0 was not able to perform few-shot in-context learning – performance actually decreased as we increased the number of in-context examples. 予備実験では,T0では,テキスト内サンプル数の増加に伴い,実際の性能が低下していた。
訳抜け防止モード: 予備実験では T0は文脈学習をほとんど実行できなかった in-コンテキストの例の数が増えるにつれて、パフォーマンスは実際に低下しました。
0.70
This is likely because of the zero-shot format used during multitask prompted fine-tuning and corroborates a recent finding by [10]. これはおそらく、マルチタスクで使用されるゼロショットフォーマットが微調整を引き起こし、[10]による最近の発見を裏付けたためだろう。 0.57
T5+LM. Since T0 is unable to perform in-context learning on its own, we also compare to T5+LM, the next-step-prediction language model upon which T0 is based. T5+LM。 t0は文脈内学習を単独では実行できないため、t0がベースとなる次のステップ予測言語モデルであるt5+lmと比較する。 0.50
Specifically, we use the LM-adapted variant of T5.1.1.xxl released by Lester et al [14], which has the same architecture and number of parameters as T0. 具体的には、Lester et al [14] がリリースした LM 適応型 T5.1.xxl を使用し、T0 と同じアーキテクチャとパラメータ数を持つ。 0.75
Due to memory constraints and because of its improved performance, we use ensemble ICL for T5+LM [6]. メモリの制約と性能の改善のため、私たちはT5+LM [6] にアンサンブル ICL を使用します。 0.74
Specifically, we perform one-shot ICL using each example in the training set individually and average the predictions for a given query example. 具体的には,個々の学習セットにおける各例と,与えられた問合せ例の予測平均を用いて,ワンショットiclを行う。 0.73
GPT-3. For a strong ICL baseline, we consider models in the GPT-3 family [4]. GPT-3。 強いiclベースラインについては、gpt-3ファミリーのモデルを考察する [4]。 0.51
Specifically, we compare to the 6.7, 13, and 175 billion parameter variants of GPT-3. 具体的には、GPT-3の6.7、13、175億のパラメータの変種と比較する。 0.62
Because these models have not been publicly released, we report numbers directly from Brown et al [4]. これらのモデルは公開されていないので、Brown ら [4] から直接数値を報告します。 0.72
While GPT-3 is available through the commercial OpenAI API, re-running evaluation through the API would be more than an order of magnitude more expensive than running all of the experiments performed for this paper. GPT-3は商用のOpenAI APIを通じて利用できるが、APIによる再実行評価は、この論文で実施されたすべての実験を実行するよりも、桁違いに高くつくだろう。 0.76
The accuracy on the held-out T0 datasets (described in section 3.1) is shown in table 1 and fig. 保持されたT0データセット(セクション3.1)の精度をテーブル1及びフィグに示す。 0.81
3, with per-dataset results reported in appendix F. We find that T-Few outperforms all other methods by a substantial margin. 我々は、T-Fewが他のすべてのメソッドよりもかなりのマージンで優れていることを発見した。 0.52
Notably, T-Few achieves a 6% higher accuracy than few-shot ICL with GPT-3 175B despite being about 16× smaller and outperforms the smaller GPT-3 variants by an even larger margin. 特にT-Fewは16倍小さいにもかかわらず、GPT-3 175Bで数発のICLよりも6%高い精度を実現し、さらに大きなマージンでGPT-3を上回ります。
訳抜け防止モード: 特にT-FewはGPT-3 175BのショットICLの精度を6%向上させる。 約16倍小さく、より小さな GPT-3 をさらに大きなマージンで上回る。
0.77
T-Few also attains significantly higher accuracy than its sibling models, outperforming both zero-shot learning with T0 and few-shot ICL with T5+LM. また、T-Fewは兄弟モデルよりも大幅に精度が高く、T0でゼロショット学習、T5+LMで少数ショットICLより優れている。 0.58
8 8 0.42
英語(論文から抽出)日本語訳スコア
Method T-Few T0 [1] T5+LM [14] GPT-3 6.7B [4] GPT-3 13B [4] GPT-3 175B [4] T-Few T0 [1] T5+LM [14] GPT-3 6.7B [4] GPT-3 13B [4] GPT-3 175B [4] 0.36
Inference FLOPs Training FLOPs 推論FLOP FLOPsのトレーニング 0.71
Disk space Accuracy ディスク空間 正確さ 0.75
1.1e12 1.1e12 4.5e13 5.4e13 1.0e14 1.4e15 1.1e12 1.1e12 4.5e13 5.4e13 1.0e14 1.4e15 0.13
2.7e16 0 0 0 0 0 2.7e16 0 0 0 0 0 0.37
4.2 MB 72.4% 0 B 66.9% 49.6% 16 kB 57.2% 16 kB 60.3% 16 kB 16 kB 66.6% 4.2 mb 72.4% 0 b 66.9% 49.6% 16 kb 57.2% 16 kb 60.3% 16 kb 66.6% 0.34
Table 1: Accuracy on held-out T0 tasks and computational costs for different few-shot learning methods and models. 表1:T0タスクのホールドアウト精度と、異なる数発の学習方法とモデルに対する計算コスト。 0.81
T-Few attains the highest accuracy with 1,000× lower computational cost than ICL with GPT-3 175B. T-Few は GPT-3 175B で ICL よりも1,000倍低い計算コストで最高精度を達成している。 0.57
Fine-tuning with T-Few costs about as much as performing ICL on 20 examples with GPT-3 175B. T-Fewによる微調整は、GPT-3 175Bで20の例でICLを実行するのと同じくらいのコストがかかる。 0.48
Method T-Few Human baseline [2] PET [50] SetFit [51] GPT-3 [4] T-Few Human Baseline [2] PET [50] SetFit [51] GPT-3 [4] 0.47
Acc. 75.8% 73.5% 69.6% 66.9% 62.7% acc。 75.8% 73.5% 69.6% 66.9% 62.7% 0.31
Table 2: Top-5 best methods on RAFT as of writing. 表2: RAFTで書かれたベストメソッドのトップ5。 0.84
T-Few is the first method to outperform the human baseline and achieves over 6% higher accuracy than the next-best method. T-Fewは、ヒトのベースラインを上回り、次のベストメソッドよりも6%高い精度を達成する最初の方法である。 0.66
4.2 Comparing computational costs Having established that T-Few significantly outperforms ICL-based models, we now compare the relative costs of each few-shot learning approach. 4.2 計算コストの比較により,T-Few はICL ベースモデルよりも大幅に優れていることが確認された。 0.77
For simplicity, we use the FLOPs-per-token estimates for Transformer-based language models introduced by Kaplan et al [20]. 単純のため、Kaplanらによって導入されたTransformerベースの言語モデルに対して、FLOPs-per-tokenの推定値を使用します。 0.48
Specifically, we estimate that a decoder-only Transformer (e g the GPT series) with N parameters uses 2N FLOPs per token for inference and 6N FLOPs per token for training. 具体的には、Nパラメータを持つデコーダのみの変換器(例えば、GPTシリーズ)は、推論にはトークン毎に2NのFLOP、訓練にはトークン毎に6NのFLOPを使用すると推定する。
訳抜け防止モード: 具体的には,Nパラメータを持つデコーダのみのトランスフォーマーが,トークン毎に2NのFLOPを用いて推論を行うと推定する。 6N FLOPsであった。
0.79
Encoder-decoder models like T0 and T5 (where the encoder and decoder have the same number of layers and layer sizes) only process each token with either the encoder or decoder (each having roughly half the parameters of the full model), so the FLOPs per token estimates are halved to N and 3N FLOPs per token for inference and training. T0やT5のようなエンコーダ/デコーダモデル(エンコーダとデコーダは同じレイヤ数とレイヤサイズ)は、各トークンをエンコーダまたはデコーダ(いずれもフルモデルのパラメータの半分)で処理するだけなので、トークン推定あたりのFLOPは、推論とトレーニングのためにトークン毎のNと3NのFLOPに半減される。 0.83
We note that FLOPs are not a direct measurement of real-world computational cost because latency, power usage, and other costs can vary significantly depending on hardware and other factors [52]. FLOPは,遅延,電力使用量,その他のコストがハードウェアや他の要因によって大きく異なるため,実世界の計算コストを直接測定するものではない。 0.82
However, we focus on FLOPs because it is a hardware-independent metric that closely with real-world costs the hardware setup used for running the different methods we consider would likely vary significantly across methods. しかし、FLOPはハードウェアに依存しないメトリクスであり、実際のコストと密接な関係にあるため、私たちが検討するさまざまなメソッドの実行に使用するハードウェアセットアップは、メソッドによって大きく異なる可能性がある。 0.55
We summarize the costs in table 1 and discuss them below. コストを表1にまとめて、以下に議論する。 0.67
For all estimates, we use the median number of shots (41) across the datasets we consider. すべての見積では、検討するデータセットの中央値のショット数(41)を使用します。 0.70
Rank evaluation and our unlikelihood loss both require processing every possible output choice to attain a prediction for an unlabeled example. ランク評価と異例の損失はどちらも、ラベルのない例の予測を達成するために、可能な出力選択を全て処理する必要があります。 0.53
The median combined tokenized sequence length for the input and all possible targets is 103 for the datasets we consider. 入力と可能なすべてのターゲットに対するトークン化シーケンスの中央値は、私たちが考慮するデータセットに対して103である。 0.56
For in-context examples processed for few-shot ICL, only the correct target is required, producing a median sequence length of 98. 少数のiclで処理されたインコンテキストの例では、正しいターゲットのみが必要であり、中央値のシーケンス長は98である。
訳抜け防止モード: for in - コンテキストの例 少数で処理する - ショット icl, 正しいターゲットのみが必要であり、中央配列長98。
0.66
Assuming that key and value vectors are cached, processing a single example with ICL therefore involves processing 41 × 98 + 103 tokens. キーベクトルと値ベクトルがキャッシュされていると仮定すると、ICLで単一の例を処理すれば41×98+103トークンが処理される。 0.66
A summary of our cost estimates is provided in table 1. コスト見積もりの概要は、表1で示されています。 0.67
Inference cost. Beyond improved accuracy, the primary advantage of avoiding few-shot ICL is dramatically lower inference costs. 推論コスト。 精度の向上に加えて、少数ショットICLを避ける主な利点は、推論コストを劇的に下げることである。 0.55
Processing a single input and all target choices with T-Few requires 11e9× 103 = 1.1e12 FLOPs, whereas few-shot ICL with GPT-3 175B requires 2× 175e9× (41 × 98 + 103) = 1.4e15 FLOPs – more than 3 orders of magnitude more. 1つの入力とT-Fewで全てのターゲット選択を処理するには1e9×103 = 1.1e12 FLOPが必要であるが、GPT-3 175Bの少数ショットICLでは2× 175e9× (41 × 98 + 103) = 1.4e15 FLOPsが必要であり、これは3桁以上である。 0.56
Inference costs with ICL using the smaller GPT-3 variants are also dramatically higher than the inference cost of T-Few. 小さい GPT-3 変種を用いた ICL の推論コストも T-Few の推論コストよりも劇的に高い。 0.79
As discussed in section 2.1, caching the key and value vectors when the same set of in-context examples is to be reused can reduce the computational cost of ICL. セクション2.1で述べたように、同じコンテキスト内例の集合を再利用する際にキーと値ベクトルをキャッシュすることで、ICLの計算コストを削減できる。 0.71
However, this would only result in an approximately 41× reduction, which is not nearly enough to make any of the GPT-3 ICL costs as low as T-Few. しかし、これは約41倍の削減にしかならないため、GPT-3 ICLのコストをT-Fewほどに抑えるには十分ではない。 0.74
Training cost. Since T-Few is the only method that involves updating parameters, it is the only method that incurs a training cost. 訓練費。 T-Fewはパラメータを更新する唯一の方法であるため、トレーニングコストを発生させる唯一の方法である。 0.53
Training an eleven billion parameter encoder-decoder model for 1,000 steps with a batch size of 8 length-103 sequences requires approximately 3 × 11e9 × 1, 000 × 8 × 103 = 2.7e16 FLOPs. 1, 000 × 8 × 103 = 2.7e16 flops の約 3 × 11e9 × 1, 000 × 8 × 103 = 2.7e16 flops である。
訳抜け防止モード: 11億のパラメータエンコーダをトレーニングする - バッチサイズが8×103の1000ステップのデコーダモデルは、およそ3 × 11e9 × 1を必要とする。 000 × 8 × 103 = 2.7e16 フラップ。
0.66
While not insignificant, this is only about 20 times larger than the FLOPs required to process a single example with few-shot in-context learning using GPT-3 175B. 重要ではないが、GPT-3 175Bを使用した数発のテキスト内学習で1つのサンプルを処理するのに必要なFLOPの約20倍の大きさである。 0.53
In other words, training T-Few costs as much as using GPT-3 175B to process 20 examples with few-shot in-context learning. 言い換えれば、T-FewのトレーニングはGPT-3 175Bで20のサンプルを処理するのと同じくらいコストがかかる。 0.63
We also found that fine-tuning T0 with T-Few on a single dataset only takes about a half an hour on a single NVIDIA A100 GPU. また、単一のデータセット上でT-Fewを使用する微調整T0は、単一のNVIDIA A100 GPUで約30時間しかかからないことがわかった。 0.65
As of writing, this would cost about $17 USD using Microsoft Azure.2 執筆時点では、microsoft azure.2を使って17ドル程度になる。 0.69
2https://docs.micros oft.com/en-us/azure/ virtual-machines/ndm -a100-v4-series 2https://docs.micros oft.com/en-us/azure/ virtual-machines/ndm -a100-v4-series 0.08
9 9 0.42
英語(論文から抽出)日本語訳スコア
T-Few also incurs the largest storage cost. t-fewは最大のストレージコストもかかる。 0.66
When stored as single-precision floats, the Storage cost. 単精度フロートとして保存すると、ストレージコストがかかる。 0.57
parameters added by (IA)3 take up 4.2 MB of space on disk. (ia)3で追加されたパラメータはディスク上の4.2mbのスペースを取る。 0.68
In contrast, ICL methods only require storing the tokenized in-context examples (typically stored as 32-bit integers), resulting in a smaller 41 × 98 × 32 bits = 16 kB disk space requirement. 対照的に、ICL法はトークン化されたインコンテキストの例(通常32ビット整数として格納される)を格納することしか必要とせず、41 × 98 × 32ビット = 16 kBディスク空間の要求が小さくなる。 0.66
However, we note that 4.2 MB is dwarfed by the on-disk size of the model checkpoints themselves – storing the (IA)3 adaptation vectors for 10,000 tasks would take about as much space as the T0 checkpoint (41.5 GB). しかし、モデルチェックポイント自体のディスクサイズによって4.2MBは小さすぎるので、1万のタスクに(IA)3適応ベクトルを格納するにはT0チェックポイント(41.5GB)と同じくらいのスペースを要する。 0.79
Memory usage. During inference, the primary memory cost is incurred by the model’s parameters. メモリ使用量。 推論の間、主要なメモリコストはモデルのパラメータによって引き起こされる。 0.59
The only model smaller than T0 (used by T-Few) is GPT-3 6.7B; otherwise, T-Few will incur a lower memory cost during inference. T-Few が使用する T0 より小さいモデルは GPT-3 6.7B であり、そうでなければ T-Few は推論時にメモリコストを低くする。 0.70
Additional memory costs are incurred when training T-Few due to the need to cache intermediate activations for backpropagation and for the gradient accumulator variables in Adafactor. バックプロパゲーションとAdafactorの勾配アキュムレータ変数の中間アクティベーションをキャッシュする必要があるため、T-Fewのトレーニング時に追加のメモリコストが発生する。 0.76
However, as mentioned above, it is possible to use the T-Few recipe on a single 80GB A100 GPU. しかし、前述のように、T-Fewレシピを単一の80GB A100 GPUで使用できる。 0.78
4.3 Performance on Real-world Few-shot Tasks (RAFT) So far, we have evaluated performance on a collection of datasets that were not explicitly designed for benchmarking few-shot learning. 4.3 実世界のFew-shot Tasks(RAFT)におけるパフォーマンス これまでのところ、数ショット学習のベンチマーク用に明示的に設計されていないデータセット群の性能を評価してきた。
訳抜け防止モード: 4.3 実世界におけるショットタスク(RAFT)の性能 データセットのコレクションのパフォーマンスを評価しました ほとんどベンチマークするように設計されていない。
0.71
To better evaluate T-Few’s performance in the real world, we evaluated our approach on the RAFT benchmark [2]. 実世界におけるT-Fewの性能をよりよく評価するため,RAFTベンチマーク [2] に対するアプローチを評価した。 0.78
RAFT consists of 11 “economically valuable” tasks that aim to mirror real-world applications. RAFTは11の“経済的に価値のある”タスクで構成される。 0.64
Importantly, each RAFT datasets has only 50 training examples with no validation set and a (larger) test set with no public labels, so it is impossible to “cheat” by tuning on an unrealistically-larg e validation set or by peeking at the test set [31, 30]. 重要なことは、各RAFTデータセットは、検証セットのない50のトレーニング例と、公開ラベルのない(より大きな)テストセットしか持たないので、非現実的な大規模な検証セットをチューニングしたり、テストセット[31, 30]を覗くことで、“焼く”ことは不可能である。 0.64
We apply T-Few to RAFT by using the standard prompts released alongside the dataset. RAFTにT-Fewを適用し、データセットとともにリリースされた標準プロンプトを利用する。 0.58
The accuracy of the current top-5 methods is shown in table 2, with further details provided in appendix H. T-Few attains a state-of-the-art accuracy of 75.8% and outperforms the human baseline (73.5% accuracy) for the first time. 現在のトップ5法の精度は表2に示され、付録H.T-Fewのさらなる詳細は75.8%の最先端の精度に達し、ヒトのベースライン(73.5%の精度)を初めて上回る。 0.81
The next-best model (from Schick and Schütze [50]) achieves 6% lower accuracy and GPT-3 175B attains only 62.7%. 次のベストモデル(Schick and Schütze [50])は6%低い精度でGPT-3 175Bは62.7%しか得られない。 0.72
These results validate that T-Few can be readily applied as-is to novel real-world tasks to attain strong performance. これらの結果から,T-Fewは実世界の新しいタスクに適用し,高い性能が得られることを示す。 0.61
4.4 Ablation experiments Given that our T-Few design experiments were on T0-3B, we perform a final ablation of some of the ingredients of T-Few on T0. 4.4 T-Few の設計実験が T0-3B 上で行われた場合, T-Few の成分のいくつかを T0-3B 上で最終アブレーションを行う。 0.65
We experiment with omitting the step of pre-training (IA)3 and removing unlikelihood training and length normalization Detailed results are shown in appendix G. We confirm that each of the ingredients provides a boost in accuracy: Removing pre-training decreases accuracy by 1.6%, and removing both pre-training and our additional loss terms reduces accuracy by an additional 2.5%. 我々は,前訓練(ia)3の段階を省略し,前訓練と長さ正規化の詳細な結果が付録gに示され,前訓練の除去によって精度が1.6%低下し,前訓練と追加の損失項の両方が2.5%向上することを確認した。 0.74
5 Related Work Currently, prompt tuning is one of the most parameter-efficient methods for large language models [45, 14, 53]. 5 関連作業 現在、プロンプトチューニングは、大きな言語モデル [45, 14, 53] にとって最もパラメータ効率のよい方法の1つです。 0.82
Liu et al [54] introduce several tricks to improve prompt tuning, An et al [55] tune prompts along with input embeddings for boost in performance, and Chen et al [56] improve prompt embeddings through continued pre-training. liu et al [54] はプロンプトチューニングを改善するいくつかのトリックを導入し、et al [55] はパフォーマンス向上のためのインプット埋め込みと共にプロンプトをチューニングし、chen et al [56] はプレトレーニングを継続することでプロンプト埋め込みを改善した。 0.66
Given optimization difficulties when training prompt embeddings, Diao et al [57] recently used black-box optimization to train prompt embeddings without requiring gradients. プロンプト埋め込みのトレーニングにおける最適化の難しさを考えると、diao氏ら[57]は最近、グラデーションを必要とせずにプロンプト埋め込みのトレーニングにブラックボックス最適化を使用した。 0.45
Several works have analyzed prompt tuning from the perspective of interpretability Khashabi et al [58] and its similarity to other PEFT methods He et al [29]. いくつかの作品は、khashabi et al [58] と he et al [29] の他のペフト法との類似性の観点から、即興調律を解析している。
訳抜け防止モード: Khashabi et al [58]の解釈可能性の観点から、いくつかの作品が即時チューニングの分析を行った そして、他のPEFTメソッドと類似しています。
0.69
Prompt tuning has been applied to various applications for NLP including continual learning [59], model robustness [60, 61], summarization [62], machine translation [63], co-training [64], probing language models [65, 65], inverse prompting [66], and transfer learning [67]. 連続学習 [59], モデルロバスト性 [60, 61], 要約 [62], 機械翻訳 [63], 共学習 [64], 探索言語モデル [65, 65], 逆プロンプト [66], 伝達学習 [67] など, NLP の様々な応用に適用されている。 0.75
He et al [68] recently proposed the use of a hypernetwork to predict prompts for new tasks (rather than training the prompt parameters with gradient descent). He et al [68]は、最近、新しいタスクのプロンプトを予測するためのハイパーネットワークの使用を提案した(勾配降下を伴うプロンプトパラメータのトレーニングではなく)。
訳抜け防止モード: He et al [68 ] は先日,ハイパーネットワークの利用を提案した。 新しいタスクのプロンプト(勾配降下によるプロンプトパラメータのトレーニングではなく)を予測する。
0.72
Prompt tuning and other PEFT methods have also been explored outside of the context of language models (e g vision [22, 69] and vision-and-language models [26]). プロンプトチューニングや他のpeftメソッドも、言語モデルのコンテキスト(例えば vision [22, 69] と vision-and-language models [26])外で検討されている。 0.87
Separately, various studies have considered few-shot full-model fine-tuning with discrete prompts [70]. 別途、様々な研究で離散的なプロンプトによる、少数ショットのフルモデルの微調整が検討されている [70]。 0.53
Recent work has analyzed training with discrete prompts, demonstrating a boost in performance with prompting when training on various numbers of examples [71], finding that models perform similarly when trained on good and bad prompts [11], and exploring which prompts work well for few-shot and full-shot setting [72]. 最近の研究は、離散的なプロンプトによるトレーニングを分析し、さまざまな例 [71] でトレーニングを行う際のプロンプトによるパフォーマンスの向上を実証し、良いプロンプトと悪いプロンプトでトレーニングされたモデルが同じように動作することを発見した [11]、少数ショットとフルショット設定でうまく動作するプロンプトを探索する [72]。 0.69
There have also been efforts to develop methods that find performant discrete prompts [73, 74] and training prompts using methods similar to prompt tuning [75]. 高性能な離散的なプロンプト [73, 74] と、プロンプトチューニング [75] に似た方法を用いたトレーニングプロンプトを見つける方法の開発も試みられている。 0.80
10 10 0.42
英語(論文から抽出)日本語訳スコア
There has also been a great deal of work on improving ICL. ICLの改善にも多くの取り組みがあります。 0.61
Chen et al [5], Min et al [6] use ICL for meta-learning to perform few-shot learning on new tasks. chen et al [5], min et al [6]はメタラーニングにiclを使用し、新しいタスクでわずかな学習を行う。 0.71
Lampinen et al [7] show ICL can improve when explanations are provided and [8] use ICL with text retrieved from the web for open-domain question-answering. lampinen氏ら[7]は、説明を提供したときにiclが改善できることを示し、 [8] オープンドメインの質問応答のためにwebから検索されたテキストでiclを使用する。
訳抜け防止モード: Lampinen et al [ 7 ] の説明により ICL は改善できることを示す そして [8 ] は Web から取得したテキストで ICL を使用します。
0.83
Meanwhile, Min et al [9] analyze how ICL works and show that ICL can still perform well when incorrect labels are provided for the in-context examples. 一方、min et al [9] は icl の動作を分析し、in-context の例に誤ったラベルが提供されている場合、 icl がうまく機能することを示す。 0.60
With the advent of large language models with billions of parameters, there has been a great deal of recent interest in PEFT methods. 数十億のパラメータを持つ大規模言語モデルが出現したことで、peftメソッドに対する近年の関心が高まっている。 0.72
A small amount of recent work has also begun to explore the compatibility of PEFT methods in the few-shot setting. 最近の研究のごく一部は、PEFTメソッドの互換性を数ショット設定で検討し始めている。 0.66
Mahabadi et al [28] found that PEFT can outperform standard fine-tuning in the low-resource setting. Mahabadi氏ら[28]は、PEFTが低リソース環境で標準的な微調整より優れていることを発見した。 0.52
In concurrent work, Mahabadi et al [76] compare PEFT to the use of discrete prompts (e g PET [70]) during few-shot fine-tuning and find that PEFT compares favorably. 同時作業では、Mahabadi et al [76] は、PEFT を数発の微調整中に離散的なプロンプト (e g PET [70]) の使用と比較し、PEFT が好意的に比較されることを見出した。
訳抜け防止モード: 同時作業では,Mahabadi et al [76 ] がPEFT と離散的なプロンプト (eg PET [70 ] ) を数発のショットファイン-チューニングで比較した。 PEFTは好意的に比較できる。
0.74
Also concurrently, Moosavi et al [77] propose a framework for introducing adapters whose architecture and design vary from task to task and demonstrate improved results in few-shot settings. 同時に、Moosavi氏ら[77]は、アーキテクチャと設計がタスクごとに異なるアダプタを導入するためのフレームワークを提案し、改善された結果を数ショット設定で示す。 0.72
Gu et al [18] and Vu et al [19] both explored how pre-training prompt tuning parameters can improve when limited labeled data is available. Gu et al [18] と Vu et al [19] はどちらも、ラベル付きデータが制限された場合に、事前トレーニングのプロンプトチューニングパラメータが改善する方法について検討した。
訳抜け防止モード: gu et al [ 18 ] と vu et al [ 19 ] が pre - トレーニングプロンプトチューニングパラメータは、制限されたラベル付きデータがある場合に改善される。
0.72
6 Conclusion We introduced T-Few, a parameter-efficient few-shot learning recipe that attains higher accuracy than few-shot in-context learning at a lower computational cost. 6結論:t-fewはパラメータ効率が良く,計算コストが低く,コンテキスト内学習よりも精度が高いt-fewを開発した。 0.60
T-Few uses (IA)3, a new parameterefficient fine-tuning method that rescales inner activations with learned vectors. t-fewは、学習ベクトルで内部活性化をリスケールする新しいパラメータ効率の良い微調整法である(ia)3を使用する。 0.59
Using (IA)3 produces better performance than fine-tuning the full model while only introducing a tiny amount of additional parameters. ia)3を使用することで、追加のパラメータを追加するだけで、モデル全体を微調整するよりも優れたパフォーマンスが得られる。 0.62
T-Few also uses two additional loss terms that encourage the model to output lower probabilities for incorrect choices and account for the length of different answer choices. T-Fewはまた、モデルに誤った選択に対する低い確率を出力させ、異なる解選択の長さを考慮させる2つの損失項も用いている。 0.68
When applying T-Few as-is (with no task-specific hyperparameter tuning or other changes) to the RAFT benchmark, we attained super-human performance for the first time and outperformed prior submissions by a large margin. RAFTベンチマークにT-Few as-isを適用した場合(タスク固有のハイパーパラメータチューニングなどの変更はない)、我々は初めて超人的性能を達成し、大きなマージンで先行提案を上回りました。 0.60
Through detailed characterization of computational costs, we found that T-Few uses over 1,000× fewer FLOPs during inference than few-shot in-context learning with GPT-3 and only requires 30 minutes to train on a single NVIDIA A100 GPU. 計算コストの詳細なキャラクタリゼーションにより、GPT-3を用いた数ショットのインコンテキスト学習よりも1000倍以上のFLOPを使用しており、1台のNVIDIA A100 GPUでトレーニングするのに30分しかかからないことがわかった。 0.59
We hope our results provide a new perspective on how best to perform few-shot learning with large language models. 今回の結果が,大規模言語モデルを用いたマイナショット学習のベストな方法に関する新たな視点を提供することを願っています。 0.52
Acknowledgments and Disclosure of Funding We thank Brian Lester and Noah Constant for helpful discussion on debugging prompt tuning and Rabeeh Karimi Mahabadi for help with Compacter and Intrinsic SAID. 資金調達の承認と開示 我々はBrian Lester氏とNoah Constant氏に、デバッグプロンプトチューニングに関する有益な議論をし、Rabeeh Karimi Mahabadi氏に、CompacterとIntrinsic SAIDの助けを求めた。 0.55
We also thank Stella Biderman and the Google TPU Research Cloud who provided valuable computational resources to support this work. また、Stella Biderman氏とGoogle TPU Research Cloudにも感謝しています。 0.44
This work was supported by NSF-AI Engage Institute DRL-2112635. この研究はNSF-AI Engage Institute DRL-2112635によって支援された。 0.54
References [1] Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al Multitask prompted training enables zero-shot task generalization. 参照 [1] Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, et al Multitask による訓練によりゼロショットタスクの一般化が可能になった。 0.91
arXiv preprint arXiv:2110.08207, 2021. arXiv preprint arXiv:2110.08207, 2021 0.40
[2] Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, et al RAFT: A real-world few-shot text classification benchmark. [2] Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, et al RAFT: a real-world few-shot text classification benchmark。
訳抜け防止モード: 2 ] ニール・アレックス エリ・リフランド ルイス・ツンスタール abhishek thakur, pegah maham, c jess riedel, emmie hine, carolyn ashurst, paul sedille, alexis carlier, et al raft : a real-world few - shot text classification benchmark (英語)
0.65
arXiv preprint arXiv:2109.14076, 2021. arXiv preprint arXiv:2109.14076, 2021 0.40
[3] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford氏、Jeffrey Wu氏、Rewon Child氏、David Luan氏、Dario Amodei氏、Ilya Sutskever氏。 0.71
Language models are unsupervised multitask learners. 言語モデルは教師なしマルチタスク学習者である。 0.60
OpenAI blog, 2019. OpenAIブログ、2019年。 0.83
[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al Language models are few-shot learners. 4] tom b. brown, benjamin mann, nick ryder, melanie subbiah, jared kaplan, prafulla dhariwal, arvind neelakantan, pranav shyam, girish sastry, amanda askell, そしてal言語モデルは、わずかなショット学習者です。 0.69
arXiv preprint arXiv:2005.14165, 2020. arxiv プレプリント arxiv:2005.14165, 2020 0.44
[5] Yanda Chen, Ruiqi Zhong, Sheng Zha, George Karypis, and He He. 5]yanda chen、ruiqi zhong、sheng zha、george karypis、そして彼。 0.47
Meta-learning via language 言語によるメタラーニング 0.56
model in-context tuning. モデルインコンテキストチューニング。 0.65
arXiv preprint arXiv:2110.07814, 2021. arXiv preprint arXiv:2110.07814, 2021 0.40
[6] Sewon Min, Mike Lewis, Luke Zettlemoyer, and Hannaneh Hajishirzi. 6]Sewon Min, Mike Lewis, Luke Zettlemoyer, Hannaneh Hajishirzi。 0.34
Metaicl: Learning to Metaicl: 学ぶこと 0.77
learn in context. arXiv preprint arXiv:2110.15943, 2021. 文脈で学ぶ。 arXiv preprint arXiv:2110.15943, 2021 0.49
11 11 0.43
英語(論文から抽出)日本語訳スコア
[7] Andrew Kyle Lampinen, Ishita Dasgupta, Stephanie C. Y. Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L. McClelland, Jane X. Wang, and Felix Hill. 7]Andrew Kyle Lampinen, Ishita Dasgupta, Stephanie C. Y. Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L. McClelland, Jane X. Wang, Felix Hill。
訳抜け防止モード: [7 ]Andrew Kyle Lampinen, Ishita Dasgupta, Stephanie C. Y. Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L. McClelland ジェーン・X・ワンとフェリックス・ヒル。
0.87
Can language models learn from explanations in context? 言語モデルは文脈の説明から学ぶことができるか? 0.68
ArXiv, abs/2204.02329, 2022. ArXiv, abs/2204.02329, 2022。 0.35
[8] Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, and Nikolai Grigorev. 8]Angeliki Lazaridou、Elena Gribovskaya、Wojciech Stokowiec、Nikolai Grigorev。 0.29
Internetaugmented language models through few-shot prompting for open-domain question answering. オープンドメインの質問応答のための短時間のプロンプトによるインターネット型言語モデル。 0.52
arXiv preprint arXiv:2203.05115, 2022. arXiv preprint arXiv:2203.05115, 2022 0.40
[9] Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, and Luke Zettlemoyer. 9]Sewon Min,Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, Luke Zettlemoyer。
訳抜け防止モード: [9]スウォンミン、新西リュー、アリ・ホルツマン Mikel Artetxe、Mike Lewis、Hannaneh Hajishirzi、Luke Zettlemoyer。
0.63
Rethinking the role of demonstrations: What makes in-context learning work? デモの役割を再考する: インコンテキスト学習が機能する理由 0.67
arXiv preprint arXiv:2202.12837, 2022. arXiv preprint arXiv:2202.12837, 2022 0.40
[10] Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, et al Benchmarking generalization via in-context instructions on 1,600+ language tasks. 10] yizhong wang, swaroop mishra, pegah alipoormolabashi, yeganeh kordi, amirreza mirzaei, anjana arunkumar, arjun ashok, arut selvan dhanasekaran, atharva naik, david stap, et al 言語タスクのコンテキスト内命令による一般化ベンチマーク。 0.65
arXiv preprint arXiv:2204.07705, 2022. arXiv preprint arXiv:2204.07705, 2022 0.40
[11] Albert Webson and Ellie Pavlick. 11]アルバート・ウェブソンと エリー・パヴリック 0.62
Do prompt-based models really understand the meaning of プロンプトベースのモデルは本当に意味を理解するか 0.64
their prompts? arXiv preprint arXiv:2109.01247, 2021. 彼らのプロンプト? arXiv preprint arXiv:2109.01247, 2021 0.52
[12] Zihao Zhao, Eric Wallace, Shi Feng, Dan Klein, and Sameer Singh. 12]Zihao Zhao, Eric Wallace, Shi Feng, Dan Klein, Sameer Singh。 0.35
Calibrate before use: Improving few-shot performance of language models. 使用前に校正する: 言語モデルの数少ないパフォーマンスを改善する。 0.70
arXiv preprint arXiv:2102.09690, 2021. arXiv preprint arXiv:2102.09690, 2021 0.40
[13] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. [13]Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen
訳抜け防止モード: エドワード・j・ヒュー イェロン・シェン フィリップ・ウォリス zeyuan allen - zhu, yuanzhi li, shean wang。 そして、weizhu chen。
0.54
LoRA: Low-rank adaptation of large language models. LoRA: 大きな言語モデルの低ランク適応。 0.82
ArXiv, abs/2106.09685, 2021. ArXiv, abs/2106.09685, 2021。 0.35
[14] Brian Lester, Rami Al-Rfou, and Noah Constant. ブライアン・レスター、ラミ・アル=ルフー、ノア・コンスタン。 0.36
The power of scale for parameter-efficient パラメータ効率のためのスケールのパワー 0.82
prompt tuning. 迅速なチューニング。 0.52
arXiv preprint arXiv:2104.08691, 2021. arXiv preprint arXiv:2104.08691, 2021 0.40
[15] Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. [15]Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu。
訳抜け防止モード: [15 ]Colin Raffel, Noam M. Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou ピーター・J・リウ(Peter J. Liu)。
0.86
Exploring the limits of transfer learning with a unified text-to-text transformer. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.82
ArXiv, abs/1910.10683, 2020. axiv、abs/1910.10683、2020年。 0.50
[16] Derek Tam, Rakesh R Menon, Mohit Bansal, Shashank Srivastava, and Colin Raffel. 16]Derek Tam,Rakesh R Menon,Mohit Bansal,Shashank Srivastava,Colin Raffel。 0.32
Improving and simplifying pattern exploiting training. 改良 パターンを単純化する訓練です 0.71
arXiv preprint arXiv:2103.11955, 2021. arXiv preprint arXiv:2103.1 1955, 2021 0.36
[17] Sean Welleck, Ilia Kulikov, Stephen Roller, Emily Dinan, Kyunghyun Cho, and Jason Weston. Sean Welleck氏、Ilia Kulikov氏、Stephen Roller氏、Emily Dinan氏、Yunghyun Cho氏、Jason Weston氏。 0.72
Neural text generation with unlikelihood training. 異種訓練によるニューラルテキスト生成 0.60
arXiv preprint arXiv:1908.04319, 2019. arxiv プレプリント arxiv: 1908.04319, 2019 0.42
[18] Yuxian Gu, Xu Han, Zhiyuan Liu, and Minlie Huang. 18]ユキアン・グ、ジュ・ハン、ジユアン・リウ、ミリー・フアン 0.36
PPT: Pre-trained prompt tuning for PPT:事前訓練されたプロンプトチューニング 0.72
few-shot learning. arXiv preprint arXiv:2109.04332, 2021. 数発の学習。 arxiv プレプリント arxiv:2109.04332, 2021。 0.47
[19] Tu Vu, Brian Lester, Noah Constant, Rami Al-Rfou, and Daniel Cer. [19]Tu Vu, Brian Lester, Noah Constant, Rami Al-Rfou, Daniel Cer 0.39
SPoT: Better frozen model SPoT: より優れた凍結モデル 0.77
adaptation through soft prompt transfer. ソフトプロンプト転送による適応。 0.67
arXiv preprint arXiv:2110.07904, 2021. arXiv preprint arXiv:2110.07904, 2021 0.40
[20] Jared Kaplan, Sam McCandlish, T. J. Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeff Wu, and Dario Amodei. Jared Kaplan氏、Sam McCandlish氏、T.J. Henighan氏、Tom B. Brown氏、Benjamin Chess氏、Rewon Child氏、Scott Gray氏、Alec Radford氏、Jeff Wu氏、Dario Amodei氏。 0.75
Scaling laws for neural language models. ニューラルネットワークモデルのスケーリング法則。 0.54
arXiv preprint arXiv:2001.08361, 2020. arXiv preprint arXiv:2001.08361, 2020 0.40
[21] Sewon Min, Mike Lewis, Hannaneh Hajishirzi, and Luke Zettlemoyer. Sewon Min氏、Mike Lewis氏、Hannaneh Hajishirzi氏、Luke Zettlemoyer氏。 0.62
Noisy channel language model prompting for few-shot text classification. ノイズチャネル言語 数ショットのテキスト分類のためのモデルプロンプト。 0.69
arXiv preprint arXiv:2108.04106, 2021. arXiv preprint arXiv:2108.04106, 2021 0.40
[22] Sylvestre-Alvise Rebuffi, Hakan Bilen, and Andrea Vedaldi. 22] シルヴェストレ=アルヴィゼ・レブッフィ、ハカン・胆汁、アンドレア・ヴェダルディ。 0.58
Learning multiple visual domains 複数の視覚領域を学ぶ 0.67
with residual adapters. Advances in neural information processing systems, 30, 2017. 残ったアダプターで 2017年3月30日、ニューラル情報処理システムの進歩。 0.62
[23] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly。
訳抜け防止モード: [23 ]Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan そして、Sylvain Gelly。
0.40
Parameter-efficient transfer learning for NLP. NLPのためのパラメータ効率変換学習 0.79
arXiv preprint arXiv:1902.00751, 2019. arXiv preprint arXiv:1902.00751, 2019 0.40
[24] Ankur Bapna, Naveen Arivazhagan, and Orhan Firat. [24]Ankur Bapna、Naveen Arivazhagan、Orhan Firat。 0.29
Simple, scalable adaptation for neural ニューラルネットワークのシンプルでスケーラブルな適応 0.61
machine translation. arXiv preprint arXiv:1909.08478, 2019. 機械翻訳。 arxiv プレプリント arxiv:1909.08478, 2019 0.58
[25] Demi Guo, Alexander M. Rush, and Yoon Kim. 25]デミ・グオ、アレクサンドル・m・ラッシュ、キム・ユン 0.47
Parameter-efficient transfer learning with diff 差分を用いたパラメータ効率変換学習 0.65
pruning. arXiv preprint arXiv:2012.07463, 2020. 刈り取り。 arxiv プレプリント arxiv:2012.07463, 2020 0.47
12 12 0.42
英語(論文から抽出)日本語訳スコア
[26] Yi-Lin Sung, Varun Nair, and Colin Raffel. [26]Yi-Lin Sung、Varun Nair、Colin Raffel。 0.37
Training neural networks with fixed sparse masks. 固定されたスパースマスクによるニューラルネットワークのトレーニング。 0.57
arXiv preprint arXiv:2111.09839, 2021. arxiv プレプリント arxiv:2111.09839, 2021。 0.41
[27] Armen Aghajanyan, Luke Zettlemoyer, and Sonal Gupta. 27] アルメン・アジャヤン、ルーク・ゼトルモイヤー、ソナル・グプタ。 0.42
Intrinsic dimensionality explains the effectiveness of language model fine-tuning. 内在的次元性の説明 言語モデルの微調整の有効性 0.69
arXiv preprint arXiv:2012.13255, 2020. arxiv プレプリント arxiv:2012.13255, 2020 0.41
[28] Rabeeh Karimi Mahabadi, James Henderson, and Sebastian Ruder. Rabeeh Karimi Mahabadi氏、James Henderson氏、Sebastian Ruder氏。 0.28
Compacter: Efficient コンパクト化:効率的 0.69
low-rank hypercomplex adapter layers. 低ランクなハイパーコンプレックスアダプタ層。 0.60
arXiv preprint arXiv:2106.04647, 2021. arxiv プレプリント arxiv:2106.04647, 2021。 0.41
[29] Junxian He, Chunting Zhou, Xuezhe Ma, Taylor Berg-Kirkpatrick, and Graham Neubig. [29]Junxian He, Chunting Zhou, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig。 0.40
Towards a unified view of parameter-efficient transfer learning. パラメータ効率変換学習の統一的な視点に向けて 0.66
arXiv preprint arXiv:2110.04366, 2021. arXiv preprint arXiv:2110.04366, 2021 0.40
[30] Ethan Perez, Douwe Kiela, and Kyunghyun Cho. [30]Ethan Perez、Douwe Kiela、Kunghyun Cho。 0.63
True few-shot learning with language models. 言語モデルによる真に数発の学習。 0.63
arXiv preprint arXiv:2105.11447, 2021. arXiv preprint arXiv:2105.11447, 2021 0.40
[31] Avital Oliver, Augustus Odena, Colin Raffel, Ekin Dogus Cubuk, and Ian Goodfellow. Avital Oliver, Augustus Odena, Colin Raffel, Ekin Dogus Cubuk, Ian Goodfellow. 0.31
Realistic evaluation of deep semi-supervised learning algorithms. 深層半教師付き学習アルゴリズムの現実的評価 0.77
Advances in Neural Information Processing Systems, 2018. ニューラル情報処理システム(2018年)。 0.57
[32] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. [32]Ashish Vaswani氏、Noam Shazeer氏、Niki Parmar氏、Jakob Uszkoreit氏、Llion Jones氏、Aidan N. Gomez氏、Sukasz Kaiser氏、Illia Polosukhin氏。 0.67
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
Advances in Neural Information Processing Systems, 2017. ニューラル情報処理システム(2017年)の進歩 0.72
[33] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. [33]ヤコブ・デヴリン、ミン・ウェイ・チャン、ケントン・リー、クリスティーナ・トータノワ。 0.39
BERT: Pre-training of deep bidirectional transformers for language understanding. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.76
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.39
[34] Stephen H. Bach, Victor Sanh, Zheng-Xin Yong, Albert Webson, Colin Raffel, Nihal V. Nayak, Abheesht Sharma, Taewoon Kim, M Saiful Bari, Thibault Févry, et al PromptSource: An integrated development environment and repository for natural language prompts. [34] Stephen H. Bach, Victor Sanh, Zheng-Xin Yong, Albert Webson, Colin Raffel, Nihal V. Nayak, Abheesht Sharma, Taewoon Kim, M Saiful Bari, Thibault Févry, et al PromptSource: 自然言語プロンプトのための統合開発環境とリポジトリ。 0.89
arXiv preprint arXiv:2202.01279, 2022. arXiv preprint arXiv:2202.01279, 2022 0.40
[35] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, et al Transformers: Stateof-the-art natural language processing. Thomas Wolf氏、Lysandre Debut氏、Victor Sanh氏、Julien Chaumond氏、Clement Delangue氏、Anthony Moi氏、Pierric Cistac氏、Tim Rault氏、Remi Louf氏、Morgan Funtowicz氏、そしてal Transformers氏。 0.66
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020. 自然言語処理における経験的手法に関する2020年会議(system demonstrations, 2020)の議事録。 0.77
[36] Melissa Roemmele, Cosmin Adrian Bejan, and Andrew S. Gordon. [36]メリッサ・ロエメレ、コスミン・エイドリアン・ベジャン、アンドリュー・s・ゴードン。 0.38
Choice of plausible alternatives: An evaluation of commonsense causal reasoning. 妥当な代替案の選択:常識的因果推論の評価。 0.72
2011 AAAI Spring Symposium Series, 2011. 2011 aaai spring symposium series、2011年。 0.79
[37] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. [37]Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi。 0.36
HellaSwag: Can a hellaswag: できますか? 0.68
machine really finish your sentence? 機械は本当に文が終わるのか? 0.45
arXiv preprint arXiv:1905.07830, 2019. arXiv preprint arXiv: 1905.07830, 2019 0.40
[38] Rishi Sharma, James Allen, Omid Bakhshandeh, and Nasrin Mostafazadeh. [38]リシ・シャーマ、ジェームズ・アレン、オミド・バフシャンデ、ナスリン・モスタファサダ。 0.39
Tackling the story ending biases in the story cloze test. ストーリークローズテストでバイアスを終わらせるストーリーに取り組む。 0.64
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 752–757, 2018. 第56回計算言語学会年次大会(Volume 2: Short Papers)第752-757頁、2018年。 0.60
[39] Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, and Douwe Kiela. Yixin Nie氏、Adina Williams氏、Emily Dinan氏、Mohit Bansal氏、Jason Weston氏、Douwe Kiela氏。 0.69
Adversarial NLI: A new benchmark for natural language understanding. Adversarial NLI: 自然言語理解のための新しいベンチマーク。 0.82
arXiv preprint arXiv:1910.14599, 2019. arXiv preprint arXiv:1910.14599, 2019 0.40
[40] Marie-Catherine de Marneffe, Mandy Simons, and Judith Tonhauser. 40]マリー=キャサリン・ド・マルネフ、マンディ・シモンズ、ジュディス・トンハウザー 0.58
The CommitmentBank: Investigating projection in naturally occurring discourse. The CommitmentBank: 自然発生談話の予測を調査する。 0.75
Proceedings of Sinn und Bedeutung 23, 2019. 2019年3月23日、Sinnn und Bedeutungを発売。 0.56
[41] Ido Dagan, Oren Glickman, and Bernardo Magnini. [41]イド・ダガン、オーレン・グリックマン、ベルナルド・マグニーニ 0.56
The pascal recognising textual entailment テキストの包含を認識するパスカル 0.55
challenge. In Machine Learning Challenges Workshop, pages 177–190. 挑戦だ 機械学習チャレンジワークショップの177-190ページ。 0.75
Springer, 2005. 2005年、スプリンガー。 0.62
[42] Hector Levesque, Ernest Davis, and Leora Morgenstern. Hector Levesque氏、Ernest Davis氏、Leora Morgenstern氏。 0.29
The winograd schema challenge. Winogradスキーマの課題。 0.60
Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning, 2012. 第13回知識表現と推論の原則に関する国際会議(2012年) 0.82
13 13 0.85
英語(論文から抽出)日本語訳スコア
[43] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. [43]坂口敬介、ロン・ル・ブラス、チャンドラ・バガヴァトゥラ、エジン・チョイ 0.48
Winogrande: An adversarial winograd schema challenge at scale. Winogrande: スケールの逆のWinogradスキーマの問題です。 0.77
In Proceedings of the AAAI Conference on Artificial Intelligence, 2020. AAAI Conference on Artificial Intelligence, 2020に参加して 0.72
[44] Mohammad Taher Pilehvar and Jose Camacho-Collados. 44] Mohammad Taher Pilehvar氏とJosé Camacho-Collados氏。 0.42
WiC: the word-in-context dataset for evaluating context-sensitive meaning representations. WiC: コンテキスト依存の意味表現を評価するためのワード・イン・コンテキストデータセット。 0.52
arXiv preprint arXiv:1808.09121, 2018. arXiv preprint arXiv:1808.09121, 2018 0.39
[45] Xiang Lisa Li and Percy Liang. [45]Xiang Lisa LiとPercy Liang。 0.37
Prefix-Tuning: Optimizing continuous prompts for generation. プレフィックスチューニング: 生成のための継続的プロンプトの最適化。 0.57
arXiv preprint arXiv:2101.00190, 2021. arXiv preprint arXiv:2101.00190, 2021 0.40
[46] Stefan Van Der Walt, S. Chris Colbert, and Gael Varoquaux. [46] ステファン・ファン・デル・ウォルト、 クリス・コルバート、 ガエル・ヴァロクー 0.54
The numpy array: a structure for numpy配列: 構造体 0.57
efficient numerical computation. Computing in science & engineering, 13(2), 2011. 効率的な数値計算 科学と工学の計算, 13(2), 2011 0.69
[47] Elad Ben Zaken, Shauli Ravfogel, and Yoav Goldberg. Elad Ben Zaken氏、Shauli Ravfogel氏、Yoav Goldberg氏。 0.29
BitFit: Simple parameter-efficient fine-tuning for transformer-based masked language-models. bitfit: トランスフォーマーベースのマスク言語モデルのパラメータ効率の良い微調整。 0.59
arXiv preprint arXiv:2106.10199, 2021. arXiv preprint arXiv:2106.10199, 2021 0.40
[48] Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V. Le. [48]Jason Wei、Maarten Bosma、Vincent Y. Zhao、Kelvin Guu、Adams Wei Yu、Brian Lester、Nan Du、Andrew M Dai、Quoc V. Le。
訳抜け防止モード: [48 ]Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du アンドリュー・M・ダイとクオック・V・ル。
0.83
Finetuned language models are zero-shot learners. 微調整言語モデルはゼロショット学習者です。 0.57
arXiv preprint arXiv:2109.01652, 2021. arXiv preprint arXiv:2109.01652, 2021 0.40
[49] Noam Shazeer and Mitchell Stern. 49]ノーム・シェーザーとミッチェル・スターン。 0.62
Adafactor: Adaptive learning rates with sublinear memory Adafactor: サブリニアメモリを用いた適応学習率 0.76
cost. In International Conference on Machine Learning. コスト。 機械学習に関する国際会議に参加。 0.74
PMLR, 2018. 2018年、PMLR。 0.68
[50] Timo Schick and Hinrich Schütze. ティモ・シック(Timo Schick)とヒンリヒ・シュッツェ(Hinrich Schütze)。 0.56
True few-shot learning with prompts–a real-world perspective. プロンプトによる真の少数ショット学習 – 現実世界の視点。 0.53
arXiv preprint arXiv:2111.13440, 2021. arXiv preprint arXiv:2111.13440, 2021 0.40
[51] Moshe Wasserblat. [51]moshe wasserblat. 0.37
Sentence transformer fine-tuning (SetFit): Outperforming GPT-3 on few- 文変圧器微調整(SetFit):少数のGPT-3の性能- 0.62
shot text-classification while being 1600 times smaller, 2021. 1600倍小さい2021年のテキスト分類。 0.55
[52] Mostafa Dehghani, Anurag Arnab, Lucas Beyer, Ashish Vaswani, and Yi Tay. Mostafa Dehghani氏、Anurag Arnab氏、Lucas Beyer氏、Ashish Vaswani氏、Yi Tay氏。 0.63
The efficiency misnomer. 効率性 ミスノーマー 0.54
arXiv preprint arXiv:2110.12894, 2021. arXiv preprint arXiv:2110.12894, 2021 0.40
[53] Guanghui Qin and Jason Eisner. [53] 広州清とジェイソン・アイズナー 0.49
Learning how to ask: Querying LMs with mixtures of soft 質問の仕方を学ぶ - lmsをソフトな混合物で問合せする 0.64
prompts. arXiv preprint arXiv:2104.06599, 2021. プロンプト arXiv preprint arXiv:2104.06599, 2021 0.40
[54] Xiao Liu, Kaixuan Ji, Yicheng Fu, Zhengxiao Du, Zhilin Yang, and Jie Tang. [54]Xiao Liu、Kaixuan Ji、Yicheng Fu、Zhengxiao Du、Zhilin Yang、Jie Tang。 0.65
P-Tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks. P-Tuning v2: プロンプトチューニングは、スケールやタスクをまたいだ微調整に匹敵する。 0.61
arXiv preprint arXiv:2110.07602, 2021. arXiv preprint arXiv:2110.07602, 2021 0.40
[55] Shengnan An, Yifei Li, Zeqi Lin, Qian Liu, Bei Chen, Qiang Fu, Weizhu Chen, Nanning Zheng, and Jian-Guang Lou. [55] shengnanan, yifei li, zeqi lin, qian liu, bei chen, qiang fu, weizhu chen, nanning zheng, jian-guang lou
訳抜け防止モード: [55 ]shengnanan, yifei li, zeqi lin, 李清、チェン、チェン、チャンフー、ヴァイスチェン、 nanning zheng と jian - guang lou 。
0.57
Input-Tuning: Adapting unfamiliar inputs to frozen pretrained models. 入力-チューニング:不慣れな入力を凍結した事前学習されたモデルに適応する。 0.47
arXiv preprint arXiv:2203.03131, 2022. arXiv preprint arXiv:2203.03131, 2022 0.40
[56] Yulong Chen, Yang Liu, Li Dong, Shuohang Wang, Chenguang Zhu, Michael Zeng, and Yue Zhang. [56]Yulong Chen、Yang Liu、Li Dong、Shuohang Wang、Chenguang Zhu、Michael Zeng、Yue Zhang。
訳抜け防止モード: [56 ]友龍陳、陽利、李ドン、 Shuohang Wang氏、Chenguang Zhu氏、Michael Zeng氏、Yue Zhang氏。
0.76
AdaPrompt: Adaptive model training for prompt-based NLP. AdaPrompt: プロンプトベースのNLPのための適応モデルトレーニング。 0.72
arXiv preprint arXiv:2202.04824, 2022. arXiv preprint arXiv:2202.04824, 2022 0.40
[57] Shizhe Diao, Xuechun Li, Yong Lin, Zhichao Huang, and Tong Zhang. [57]シーヘディアオ、Xuechun Li、Yong Lin、Zhichao Huang、Tong Zhang。 0.56
Black-box prompt ブラックボックスプロンプト 0.72
learning for pre-trained language models. 事前訓練された言語モデルの学習。 0.63
arXiv preprint arXiv:2201.08531, 2022. arXiv preprint arXiv:2201.08531, 2022 0.40
[58] Daniel Khashabi, Shane Lyu, Sewon Min, Lianhui Qin, Kyle Richardson, Sameer Singh, Sean Welleck, Hannaneh Hajishirzi, Tushar Khot, Ashish Sabharwal, et al Prompt waywardness: The curious case of discretized interpretation of continuous prompts. 58]Daniel Khashabi, Shane Lyu, Sewon Min, Lianhui Qin, Kyle Richardson, Sameer Singh, Sean Welleck, Hannaneh Hajishirzi, Tushar Khot, Ashish Sabharwal, et al Prompt waywardness: 連続的プロンプトの離散解釈の興味深いケース。
訳抜け防止モード: 58]daniel khashabi, shane lyu, sewon min, リアンヒューイ・キン、カイル・リチャードソン、サマー・シン、ショーン・ウェレック hannaneh hajishirzi, tushar khot, ashish sabharwal, et al prompt waywardness: the curious case of discretized interpretation of continuous prompts。
0.66
arXiv preprint arXiv:2112.08348, 2021. arXiv preprint arXiv:2112.08348, 2021 0.40
[59] Zifeng Wang, Zizhao Zhang, Chen-Yu Lee, Han Zhang, Ruoxi Sun, Xiaoqi Ren, Guolong Su, Vincent Perot, Jennifer Dy, and Tomas Pfister. [59]Zifeng Wang、Zizhao Zhang、Chen-Yu Lee、Han Zhang、Ruoxi Sun、Xiaoqi Ren、Guolong Su、Vincent Perot、Jennifer Dy、Tomas Pfister。
訳抜け防止モード: [59 ]Zifeng Wang,Zizhao Zhang,Chen - Yu Lee, Han Zhang, Ruoxi Sun, Xiaoqi Ren, Guolong Su, Vincent Perot ジェニファー・ダイとトマ・フィスター。
0.75
Learning to prompt for continual learning. 継続的学習を促すための学習。 0.79
arXiv preprint arXiv:2112.08654, 2021. arXiv preprint arXiv:2112.08654, 2021 0.40
[60] Zonghan Yang and Yang Liu. 60] 張陽と李陽。 0.24
On robust prefix-tuning for text classification. テキスト分類のためのロバストプレフィックスチューニングについて 0.52
arXiv preprint arXiv プレプリント 0.83
arXiv:2203.10378, 2022. arxiv:2203.10378、2022。 0.37
14 14 0.42
英語(論文から抽出)日本語訳スコア
[61] Yuting Yang, Pei Huang, Juan Cao, Jintao Li, Yun Lin, Jin Song Dong, Feifei Ma, and Jian Zhang. [61]Yuting Yang, Pei Huang, Juan Cao, Jintao Li, Yun Lin, Jin Song Dong, Feifei Ma, Jian Zhang
訳抜け防止モード: [61]ユティン・ヤン、ペイ・フン、フアン・カオ ジンタオ・リー、ユン・リン、ジン・ソン・ドン、フェイファイ・マ そしてjian zhang。
0.63
A prompting-based approach for adversarial example generation and robustness enhancement. 逆例生成とロバスト性向上のためのプロンプトベースアプローチ 0.69
arXiv preprint arXiv:2203.10714, 2022. arXiv preprint arXiv:2203.10714, 2022 0.40
[62] Xiaochen Liu, Yu Bai, Jiawei Li, Yinan Hu, and Yang Gao. 【62]青王チェン・リウ、ユウ・バイ、ジャワイ・リー、イナン・フ、ヤン・ガオ。 0.47
PSP: Pre-trained soft prompts for PSP:事前訓練されたソフトプロンプト 0.72
few-shot abstractive summarization. few‐shot abstractive summarization 0.44
arXiv preprint arXiv:2204.04413, 2022. arXiv preprint arXiv:2204.04413, 2022 0.40
[63] Xavier Garcia and Orhan Firat. ザビエル・ガルシアとオルハン・フィラト。 0.36
Using natural language prompts for machine translation. 機械翻訳に自然言語プロンプトを使用する。 0.79
arXiv preprint arXiv:2202.11822, 2022. arXiv プレプリントarxiv:2202.11822、2022。 0.42
[64] Hunter Lang, Monica Agrawal, Yoon Kim, and David Sontag. 64]ハンター・ラング、モニカ・アクロアル、ユン・キム、デイヴィッド・ソンタグ 0.56
Co-training improves prompt- コートレーニングはプロンプトを改善する 0.47
based learning for large language models. 大規模な言語モデルに基づく学習です 0.82
arXiv preprint arXiv:2202.00828, 2022. arXiv preprint arXiv:2202.00828, 2022 0.40
[65] Boshi Wang, Xiang Deng, and Huan Sun. [65]ボシ・ワン、Xiang Deng、Huan Sun。 0.30
Shepherd pre-trained language models to develop a シェパード事前学習型言語モデルの開発 0.76
train of thought: An iterative prompting approach. train of thought: 反復的なプロンプトアプローチ。 0.77
arXiv preprint arXiv:2203.08383, 2022. arXiv preprint arXiv:2203.08383, 2022 0.40
[66] Xu Zou, Da Yin, Qingyang Zhong, Hongxia Yang, Zhilin Yang, and Jie Tang. [66]玄宗、大陽、清陽、ホンシャ・ヤン、ジリン・ヤン、江唐 0.49
Controllable generation from pre-trained language models via inverse prompting. 逆プロンプトによる事前学習言語モデルからの制御可能生成 0.77
arXiv preprint arXiv:2103.10685, 2021. arXiv preprint arXiv:2103.10685, 2021 0.40
[67] Yusheng Su, Xiaozhi Wang, Yujia Qin, Chi-Min Chan, Yankai Lin, Zhiyuan Liu, Peng Li, Juanzi Li, Lei Hou, Maosong Sun, et al On transferability of prompt tuning for natural language understanding. [67]yusheng su, xiaozhi wang, yujia qin, chi-min chan, yankai lin, zhiyuan liu, peng li, juanzi li, lei hou, maosong sun, et al 自然言語理解のための素早いチューニングの移行性について。 0.77
arXiv preprint arXiv:2111.06719, 2021. arxiv プレプリント arxiv:2111.06719, 2021。 0.41
[68] Yun He, Huaixiu Steven Zheng, Yi Tay, Jai Gupta, Yu Du, Vamsi Aribandi, Zhe Zhao, YaGuang Li, Zhao Chen, Donald Metzler, et al HyperPrompt: Prompt-based task-conditioning of transformers. 68]Yun He, Huaixiu Steven Zheng, Yi Tay, Jai Gupta, Yu Du, Vamsi Aribandi, Zhe Zhao, YaGuang Li, Zhao Chen, Donald Metzler, et al HyperPrompt: Promptベースのトランスフォーマーのタスクコンディショニング。 0.82
arXiv preprint arXiv:2203.00759, 2022. arXiv preprint arXiv:2203.00759, 2022 0.40
[69] Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, [69]メングリン・ジーア、ルミン・タン、ボルチュン・チェン、クレア・カーディ、セルゲイ・フィニティ、バラート・ハリハラーン、 0.50
and Ser-Nam Lim. そしてSer-Nam Lim。 0.72
Visual prompt tuning. 視覚プロンプトチューニング。 0.58
arXiv preprint arXiv:2203.12119, 2022. arXiv preprint arXiv:2203.12119, 2022 0.40
[70] Timo Schick and Hinrich Schütze. ティモ・シック(Timo Schick)とヒンリヒ・シュッツェ(Hinrich Schütze)。 0.58
Exploiting cloze questions for few shot text classification ショットテキストの分類におけるクローズ問題の利用 0.62
and natural language inference. arXiv preprint arXiv:2001.07676, 2020. 自然言語の推測です arXiv preprint arXiv:2001.07676, 2020 0.52
[71] Teven Le Scao and Alexander M. Rush. テブン・ル・スカオとアレクサンドル・M・ラッシュ。 0.34
How many data points is a prompt worth? プロンプトの価値あるデータポイントはいくつあるか? 0.74
arXiv preprint arXiv:2103.08493, 2021. arXiv arXiv:2103.08493, 2021 0.39
[72] Sen Yang, Yunchen Zhang, Leyang Cui, and Yue Zhang. 72]ゼン・ヤン、ユンチェン・チャン、レイアン・クイ、ユエ・ジン 0.52
Do prompts solve NLP tasks using Do プロンプトは NLP タスクを解く 0.78
natural language? arXiv preprint arXiv:2203.00902, 2022. 自然言語? arXiv preprint arXiv:2203.00902, 2022 0.59
[73] Taylor Shin, Yasaman Razeghi, Robert L Logan IV, Eric Wallace, and Sameer Singh. [73]テイラー・シン、ヤサマン・ラゼギ、ロバート・l・ローガン4世、エリック・ウォレス、サマー・シン。 0.58
AutoPrompt: Eliciting knowledge from language models with automatically generated prompts. AutoPrompt: 自動生成プロンプトによる言語モデルからの知識の引用。 0.87
arXiv preprint arXiv:2010.15980, 2020. arxiv プレプリント arxiv:2010.15980, 2020 0.43
[74] Tianyu Gao, Adam Fisch, and Danqi Chen. 74] 天友 ガオ アダム フィッシュ ダンチー チェン 0.33
Making pre-trained language models better few-shot 事前学習された言語モデルの改善 0.60
learners. arXiv preprint arXiv:2012.15723, 2020. 学習者。 arxiv プレプリント arxiv:2012.15723, 2020 0.57
[75] Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, and Huajun Chen. [75]寧遊張、ルクジュ・リー、Xiang Chen、Shumin Deng、Zhen Bi、Chuanqi Tan、Fei Huang、Huajun Chen。 0.77
Differentiable prompt makes pre-trained language models better few-shot learners. 差別化可能なプロンプトは、事前訓練された言語モデルを改善する。 0.43
arXiv preprint arXiv:2108.13161, 2021. arXiv preprint arXiv:2108.13161, 2021 0.40
[76] Rabeeh Karimi Mahabadi, Luke Zettlemoyer, James Henderson, Marzieh Saeidi, Lambert Mathias, Veselin Stoyanov, and Majid Yazdani. Rabeeh Karimi Mahabadi, Luke Zettlemoyer, James Henderson, Marzieh Saeidi, Lambert Mathias, Veselin Stoyanov, Majid Yazdani。
訳抜け防止モード: 76] ラビー・カリミ・マハバディ ルーク・ゼトルモイヤー ジェームズ・ヘンダーソン marzieh saeidi氏、lambert mathias氏、veslin stoyanov氏、magid yazdani氏。
0.53
PERFECT: Prompt-free and efficient few-shot learning with language models. PERFECT: 言語モデルによるプロンプトフリーで効率的な数ショット学習。 0.70
arXiv preprint arXiv:2204.01172, 2022. arXiv preprint arXiv:2204.01172, 2022 0.40
[77] Nafise Sadat Moosavi, Quentin Delfosse, Kristian Kersting, and Iryna Gurevych. 77]ナフィス・サデット・モオサヴィ、クエンティン・デルフォッセ、クリスティアン・ケルスティン、イリナ・ゲレヴィチ 0.40
Adaptable adapters. arXiv preprint arXiv:2205.01549, 2022. 適応性 アダプタ。 arXiv preprint arXiv:2205.01549, 2022 0.56
15 15 0.43
英語(論文から抽出)日本語訳スコア
A Compute Description All T0-3B models were trained on 48GB A6000s. A Compute Description 全てのT0-3Bモデルは48GB A6000で訓練された。 0.62
Training T0-3B with different PEFT methods took about an hour to train, except for Intrinsic SAID and FishMask which each took about two hours to train. 異なるペフト法でt0-3bを訓練するのに約1時間かかったが、内在的なサニーとフィッシュマスクは訓練に約2時間かかった。 0.63
Pre-training (IA)3 took 1 day on 4 A6000s. プレトレーニング(IA)3は4A6000で1日を要した。 0.75
All T 0-sized models were trained 80GB A100s from DataCrunch 3 and took about half an hour to train each. すべてのt0サイズモデルはdatacrunch 3から80gb a100をトレーニングし、各トレーニングに約30分を要した。 0.69
Pre-training (IA)3 took about 1 day on 4 A100s. プレトレーニング(IA)3は4A100で約1日を要した。 0.76
B Dataset licenses ANLI, WiC, WSC is licensed under a Creative Commons License. B Dataset ライセンス ANLI, WiC, WSC は Creative Commons License の下でライセンスされている。 0.83
Winogrande is licnsed under an Apache license. WinograndeはApacheライセンスでライセンスされている。 0.73
COPA is under a BSD-2 Clause license. COPAはBSD-2 Clauseライセンス下にある。 0.77
We could not find the license of RTE and CB but they are part of SuperGLUE which mentions the datasets are allowed for use in research context. rteとcbのライセンスは見つからなかったが、superglueの一部であり、研究コンテキストで使用できるデータセットについて言及している。
訳抜け防止モード: RTEとCBのライセンスが見つからなかった しかし、これらのデータセットは研究の文脈での使用が許可されている、とSuperGLUEの一部です。
0.72
C Full Unlikelihood Training and Length Normalization Results Table 3 shows the full results with unlikelihood training and length normalization. C完全相似トレーニングと長さ正規化結果表3は、相似トレーニングと長さ正規化による完全な結果を示す。 0.62
COPA H-Swag StoryCloze Winogrande WSC COPA hスワグ StoryCloze Winogrande WSC 0.46
WiC FT 78.02.0 + UL 81.03.0 + LN 86.04.0 + UL + LN 81.011.0 WiC FT 78.02.0 + UL 81.03.0 + LN 86.04.0 + UL + LN 81.011.0 0.35
RTE 39.20.2 46.14.8 47.122.4 46.48.8 CB RTE 39.20.2 46.14.8 47.122.4 46.48.8 CB 0.29
66.41.0 91.51.0 61.58.7 93.62.5 65.43.9 94.00.6 93.82.7 65.47.7 ANLI-R1 ANLI-R2 ANLI-R3 66.41.0 91.51.0 61.58.7 93.62.5 65.43.9 94.00.6 93.82.7 65.47.7 ANLI-R1 ANLI-R2 ANLI-R3 0.13
54.50.9 56.52.2 56.93.8 56.51.5 54.50.9 56.52.2 56.93.8 56.51.5 0.14
53.81.7 56.44.1 53.92.0 57.73.9 53.81.7 56.44.1 53.92.0 57.73.9 0.14
FT 75.85.4 + UL 77.61.4 + LN 75.84.3 + UL + LN 79.83.6 FT 75.85.4 + UL 77.61.4 + LN 75.84.3 + UL + LN 79.83.6 0.27
82.15.4 89.31.8 89.37.1 87.55.4 82.15.4 89.31.8 89.37.1 87.55.4 0.14
47.81.5 47.91.9 48.20.6 46.62.5 47.81.5 47.91.9 48.20.6 46.62.5 0.14
40.60.8 40.91.9 40.90.9 41.30.9 40.60.8 40.91.9 40.90.9 41.30.9 0.14
37.81.8 38.85.0 38.31.6 40.25.3 37.81.8 38.85.0 38.31.6 40.25.3 0.14
Table 3: Per-dataset results for comparing the effect of including the additional loss terms introduced in section 3.2. 表3: 第3条2に導入された損失項の追加効果を比較するためのデータセット毎の結果。
訳抜け防止モード: 表3 : Per - データセットの結果 第3条2項の損失項の追加を含む効果の比較
0.82
D Full PEFT Results We compare against the following PEFT methods, using a linear decay with warmup scheduler with a warm-up ratio of 0.06 and the Adafactor optimizer [49]. D Full PEFT Results We compared the following PEFT methods, using a linear decay with warmup scheduler with a warm-up ratio of 0.06 and the Adafactor optimizationr [49]。
訳抜け防止モード: D Full PEFT Results We compare the following PEFT method。 温度上昇比0.06の温度上昇スケジューラで線形減衰を使用する そして Adafactor オプティマイザ [ 49 ] も。
0.73
Table 4 shows the full per-dataset results of all PEFT methods we considered. 表4は、考慮したすべてのPEFTメソッドのデータセット毎の完全な結果を示しています。 0.54
Full Model Fine-tuning We train for 300 steps with a learning rate of 3e−4. 完全なモデルファインチューニング 私たちは3e−4の学習率で300ステップのトレーニングを行います。 0.62
BitFit [47] We train for 300 steps with a learning rate of 3e−4. BitFit [47] 学習率3e−4で300ステップのトレーニングを行います。 0.83
LayerNorm We train for 300 steps with a learning rate of 3e−4. LayerNorm 3e−4の学習率で300ステップのトレーニングを行います。 0.72
Adapter [23] We use a reduction factor of 32, ReLU nonlinearity, and residual connections. アダプタ[23]32の還元係数、ReLU非線形性、残余接続を用いる。 0.61
We train for 500 steps with a learning rate of 3e−3. 私たち 学習速度3e−3の500ステップのトレーニング。 0.68
Compacter [28] We train for 500 steps with a learning rate of 3e−3 and hyper complex division コンパクト化[28] 3e−3 の学習率と超複素分割による 500 ステップの学習 0.77
factor of 4 (n = 4). 係数は 4 (n = 4) である。 0.80
Compacter++ [28] We train for 500 steps with a learning rate of 3e−3 and hyper complex division compacter++ [28] 学習率3e−3と超複素分割による500ステップのトレーニング 0.82
factor of 4 (n = 4). 係数は 4 (n = 4) である。 0.80
Prompt tuning [14] We train for 1K steps with a learning rate of 3e−1 and use 10 and 100 prompt プロンプトチューニング[14] 学習率3e−1で1kステップを訓練し、10,100プロンプトを使用する 0.83
embeddings. 3https://cloud.datac runch.io/ 埋め込み。 3https://cloud.datac runch.io/ 0.36
16 16 0.42
英語(論文から抽出)日本語訳スコア
FishMask [26] The Fisher is first computed on the training examples and we keep 0.2% or 0.02% of the parameters. fishmask [26] 漁師はトレーニング例で最初に計算され、パラメータの 0.2% または 0.02% を保持する。 0.77
Then, these parameters are trained for 1500 steps with a learning rate of 3e−4. 次に、これらのパラメータを3e−4の学習率で1500ステップに訓練する。 0.71
Intrinsic SAID [27] We train for 3K steps with a learning rate of 3e−2 LoRA [13] We use a rank of 4 with initialization scale of 0.01 and update all the attention and 内在的に言う[27] 学習率3e−2 lora[13]の3kステップをトレーニングする 初期化スケール0.01のランク4を使用して、すべての注意を更新する。 0.69
feedforward module. feedforwardモジュール。 0.76
We train for 1K steps with a learning rate of 3e−3. 学習速度3e−3で1kステップを訓練する。 0.72
E Full Pre-training Results Table 5 shows the per-dataset results for of pre-training (IA)3. Eフルトレーニング結果表5は、事前トレーニング(IA)3のデータセット毎の結果を示す。 0.68
F Full Main Results Table 6 shows the per-dataset results for all few-shot G Full Ablation Results Table 7 shows the T-Few ablation results. fフルメイン結果表6は、全数ショットgフルアブレーション結果表7のデータセット当たりの結果を示し、t-fewアブレーション結果を示す。 0.70
H RAFT Experiment Details RAFT consists of 11 tasks: Ade Corpus V2, Banking 77, NeurIps Impact Statement Risks, One Stop English, Overruling, Systematic Review Inclusion, Tai Safety Research, Terms of Service, Tweet Eval Hate, and Twitter Complaints. H RAFT Experiment details RAFTは、Ade Corpus V2, Banking 77, NeurIps Impact Statement Risks, One Stop English, Overruling, Systematic Review Inclusion, Tai Safety Research, Terms of Service, Tweet Eval Hate, Twitter Complaintsという11のタスクで構成されている。 0.90
We use the T-Few recipe on all datasets without putting the labels into the input string except Banking 77. バンク77を除く入力文字列にラベルを入れることなく、すべてのデータセットでt-fewレシピを使用します。 0.61
Since Banking 77 has 77 classes which causes memory issues for unlikelihood training, we turn off unlikelihood training for Banking 77. バンク77には77のクラスがあるので、バンク77とは違って記憶上の問題が生じます。 0.59
We also feed in all the labels as part of the input string for Banking 77 since there were some labels never seen during training and clean the labels by replacing "." with ",". また、トレーニング中に見たことのないラベルがいくつかあり、"."を","に置き換えることでラベルをきれいにするので、Banding 77の入力文字列の一部としてすべてのラベルをフィードします。
訳抜け防止モード: また、トレーニング中に見たことのないラベルがあるため、Banking 77の入力文字列の一部として、すべてのラベルをフィードします。 ラベルをきれいにし 代替 " . " with " , " .
0.78
Per-dataset results of T-Few and the other top-5 methods on RAFT are shown in table 8. T-FewとRAFT上の他のトップ5メソッドのデータセット毎の結果を表8に示す。 0.70
17 17 0.43
英語(論文から抽出)日本語訳スコア
# of Param COPA # of Param COPA 0.42
H-Swag StoryCloze Winogrande hスワグ storycloze winogrande の略。 0.47
Full Model Fine-tuning BitFit (with LayerNorm) フルモデルファインチューニングBitFit(LayerNorm搭載) 0.80
LayerNorm Adapter Compacter Compacter++ LayerNorm Adapter Compacter Compacter++ 0.41
Prompt tuning (10) Prompt tuning (100) プロンプトチューニング(10) プロンプトチューニング(100) 0.63
FishMask (0.2%) FishMask (0.02%) 魚マスク(0.2%)魚マスク(0.02%) 0.64
Intrinsic SAID Intrinsic SAID 内因性SAID内因性SAID 0.25
LoRA (IA)3 3B 1.3M 250K 12.9M 807K 540K 41K 409K 6M 600K 500K 20K 9.1M 540K ロラ(IA)3 3b 1.3m 250k 12.9m 807k 540k 41k 409k 6m 600k 500k 20k 9.1m 540k 0.54
81.011.0 75.02.0 76.02.0 84.03.0 84.05.0 86.03.0 67.05.0 60.019.0 82.05.0 84.06.0 77.04.0 76.04.0 88.05.0 87.03.0 81.011.0 75.02.0 76.02.0 84.03.0 84.05.0 86.03.0 67.05.0 60.019.0 82.05.0 84.06.0 77.04.0 76.04.0 88.05.0 87.03.0 0.12
46.48.8 29.53.6 29.63.4 41.93.8 46.42.5 46.33.0 29.90.6 26.80.6 44.14.2 38.23.6 36.74.5 38.36.4 47.13.2 49.44.6 46.48.8 29.53.6 29.63.4 41.93.8 46.42.5 46.33.0 29.90.6 26.80.6 44.14.2 38.23.6 36.74.5 38.36.4 47.13.2 49.44.6 0.12
# of Param WSC param wsc の # 0.56
WiC 93.82.7 88.60.7 88.70.9 91.73.7 93.52.2 93.51.2 84.20.8 74.03.4 94.21.8 93.60.7 89.32.3 89.72.7 93.62.1 94.72.7 RTE WiC 93.82.7 88.60.7 88.70.9 91.73.7 93.52.2 93.51.2 84.20.8 74.03.4 94.21.8 93.60.7 89.32.3 89.72.7 93.62.1 94.72.7 RTE 0.28
56.51.5 49.61.3 49.41.4 54.73.6 55.52.9 55.11.1 51.91.6 51.10.8 54.52.1 53.92.8 52.72.1 50.91.0 56.83.3 59.80.6 CB 56.51.5 49.61.3 49.41.4 54.73.6 55.52.9 55.11.1 51.91.6 51.10.8 54.52.1 53.92.8 52.72.1 50.91.0 56.83.3 59.80.6 CB 0.13
Full Model Fine-tuning BitFit (with LayerNorm) フルモデルファインチューニングBitFit(LayerNorm搭載) 0.80
LayerNorm Adapter LayerNorm アダプタ 0.59
Compacter (n = 4) Compacter++ (n = 4) Compacter (n = 4) Compacter++ (n = 4) 0.49
Prompt tuning (10) Prompt tuning (100) プロンプトチューニング(10) プロンプトチューニング(100) 0.63
FishMask (0.2%) FishMask (0.02%) 魚マスク(0.2%)魚マスク(0.02%) 0.64
SAID SAID LoRA (IA)3 lora (ia)3」 0.41
1.3M 1.3M 250K 12.9M 807K 540K 41K 409K 6M 600K 500K 20K 9.1M 540K # of Param ANLI-R1 ANLI-R2 ANLI-R3 1.3M 1.3M 250K 12.9M 807K 540K 41K 409K 6M 600K 500K 20K 9.1M 540K # of Param ANLI-R1 ANLI-R2 ANLI-R3 0.24
65.47.7 61.511.5 63.512.5 65.41.0 64.46.7 65.43.9 54.810.6 60.64.8 63.54.8 61.51.0 61.58.7 55.86.7 60.65.8 68.36.7 65.47.7 61.511.5 63.512.5 65.41.0 64.46.7 65.43.9 54.810.6 60.64.8 63.54.8 61.51.0 61.58.7 55.86.7 60.65.8 68.36.7 0.12
57.73.9 51.72.2 52.21.6 55.52.7 55.23.8 54.12.2 51.62.0 50.01.1 52.53.3 53.51.3 55.02.7 55.30.5 55.25.0 56.04.6 57.73.9 51.72.2 52.21.6 55.52.7 55.23.8 54.12.2 51.62.0 50.01.1 52.53.3 53.51.3 55.02.7 55.30.5 55.25.0 56.04.6 0.12
79.83.6 72.21.1 71.80.4 76.23.6 75.86.1 76.90.4 52.75.4 48.02.9 76.94.7 75.55.4 69.07.6 66.15.4 78.37.6 78.02.5 79.83.6 72.21.1 71.80.4 76.23.6 75.86.1 76.90.4 52.75.4 48.02.9 76.94.7 75.55.4 69.07.6 66.15.4 78.37.6 78.02.5 0.12
87.55.4 57.11.8 57.11.8 87.53.6 82.13.6 82.13.6 66.11.8 53.617.9 83.93.6 76.83.6 80.40.0 83.91.8 85.71.8 87.51.8 87.55.4 57.11.8 57.11.8 87.53.6 82.13.6 82.13.6 66.11.8 53.617.9 83.93.6 76.83.6 80.40.0 83.91.8 85.71.8 87.51.8 0.12
Full Model Fine-tuning BitFit (with LayerNorm) フルモデルファインチューニングBitFit(LayerNorm搭載) 0.80
LayerNorm Adapter Compacter Compacter++ LayerNorm Adapter Compacter Compacter++ 0.41
Prompt tuning (10) Prompt tuning (100) プロンプトチューニング(10) プロンプトチューニング(100) 0.63
FishMask (0.2%) FishMask (0.02%) 魚マスク(0.2%)魚マスク(0.02%) 0.64
SAID SAID LoRA LoRA-Scaling サッドサッドローラ LoRA-Scaling 0.31
(IA)3 1.3M 1.3M 250K 12.9M 807K 540K 41K 409K 6M 600K 500K 20K 9.1M 2.2M 540K (IA)3 1.3m 1.3m 250k 12.9m 807k 540k 41k 409k 6m 600k 500k 20k 9.1m 2.2m 540k 0.41
46.62.5 36.50.8 36.50.7 45.12.6 40.83.3 41.70.4 34.21.9 33.41.2 43.70.3 39.90.9 40.43.3 41.31.3 45.12.5 48.91.9 48.62.0 46.62.5 36.50.8 36.50.7 45.12.6 40.83.3 41.70.4 34.21.9 33.41.2 43.70.3 39.90.9 40.43.3 41.31.3 45.12.5 48.91.9 48.62.0 0.12
41.30.9 35.32.2 35.12.6 40.41.2 37.40.2 38.31.8 33.51.1 33.80.5 39.71.4 38.12.0 35.44.1 38.51.8 41.01.4 40.50.4 40.81.5 41.30.9 35.32.2 35.12.6 40.41.2 37.40.2 38.31.8 33.51.1 33.80.5 39.71.4 38.12.0 35.44.1 38.51.8 41.01.4 40.50.4 40.81.5 0.12
40.25.3 36.60.8 36.31.0 35.31.3 35.83.3 36.91.5 33.51.3 33.30.8 37.21.1 36.21.8 35.51.6 35.82.0 39.54.8 39.86.0 40.82.3 40.25.3 36.60.8 36.31.0 35.31.3 35.83.3 36.91.5 33.51.3 33.30.8 37.21.1 36.21.8 35.51.6 35.82.0 39.54.8 39.86.0 40.82.3 0.12
Table 4: Per-dataset accuracies for the PEFT methods we consider. 表4: 私たちが考慮しているPEFTメソッドのデータセット毎の精度。 0.56
18 18 0.42
英語(論文から抽出)日本語訳スコア
COPA H-Swag COPA H-Swag 0.35
StoryCloze Winogrande WSC StoryCloze Winogrande WSC 0.43
WiC (IA)3 + PT WiC (IA)3+PT 0.40
87.03.0 89.05.0 RTE 87.03.0 89.05.0 RTE 0.20
49.44.6 51.24.6 CB 49.44.6 51.24.6 CB 0.20
(IA)3 + PT 78.02.5 80.91.4 (IA)3+PT 78.02.5 80.91.4 0.26
87.51.8 87.51.8 87.51.8 87.51.8 0.16
59.80.6 62.61.1 59.80.6 62.61.1 0.16
94.72.7 95.12.5 ANLI-R1 ANLI-R2 ANLI-R3 Acc. 94.72.7 95.12.5 ANLI-R1 ANLI-R2 ANLI-R3 Acc. 0.19
64.6 65.8 40.832.3 39.84.8 64.6 65.8 40.832.3 39.84.8 0.21
48.62.0 49.31.1 48.62.0 49.31.1 0.16
68.36.7 70.28.7 68.36.7 70.28.7 0.16
40.81.5 41.10.5 40.81.5 41.10.5 0.16
56.04.6 57.22.5 56.04.6 57.22.5 0.16
Table 5: Per-dataset results when pre-training (PT) (IA)3 vs. not pre-training (IA)3. 表5: 事前トレーニング(IA)3対事前トレーニング(IA)3におけるデータセット毎の結果。 0.75
COPA H-Swag COPA H-Swag 0.35
StoryCloze Winogrande WSC StoryCloze Winogrande WSC 0.43
WiC T-Few T0 WiC T‐Few T0 0.37
T5+LM GPT-3 (175B) GPT-3 (13B) GPT-3 (6.7B) T5+LM GPT-3 (175B) GPT-3 (13B) GPT-3 (6.7B) 0.28
93.02.0 90.8 68.0 92.0 86.0 83.0 93.02.0 90.8 68.0 92.0 86.0 83.0 0.20
67.16.0 33.7 60.95 79.3 71.3 67.3 67.16.0 33.7 60.95 79.3 71.3 67.3 0.20
T-Few T0 T5 + LM T‐Few T0 T5+LM 0.36
GPT-3 (175B) GPT-3 (13B) GPT-3 (6.7B) GPT-3 (175B) GPT-3 (13B) GPT-3 (6.7B) 0.32
RTE CB 85.62.9 81.2 53.4 72.9 60.6 49.5 RTE CB 85.62.9 81.2 53.4 72.9 60.6 49.5 0.35
87.53.6 78.6 32.1 82.1 66.1 60.7 87.53.6 78.6 32.1 82.1 66.1 60.7 0.20
97.90.3 94.7 62.8 87.7 83.0 81.2 ANLI-R1 ANLI-R2 ANLI-R3 97.90.394.762.887.78 3.081.2ANLI-R1ANLI-R 2ANLI-R3 0.16
75.05.5 64.4 63.5 75.0 75.0 67.3 75.05.5 64.4 63.5 75.0 75.0 67.3 0.20
74.31.5 60.5 56.9 77.7 70.0 67.4 74.31.5 60.5 56.9 77.7 70.0 67.4 0.20
62.27.8 57.2 50.0 55.3 51.1 53.1 62.27.8 57.2 50.0 55.3 51.1 53.1 0.20
59.33.6 44.7 33.3 36.8 33.3 33.1 59.33.6 44.7 33.3 36.8 33.3 33.1 0.20
49.82.6 39.4 32.7 34.0 32.6 33.1 49.82.6 39.4 32.7 34.0 32.6 33.1 0.20
44.88.0 42.4 34.1 40.2 34.5 33.9 44.88.0 42.4 34.1 40.2 34.5 33.9 0.20
Table 6: Comparing T-Few with few-shot ICL methods. 表6: T-Few と数ショット ICL メソッドの比較。 0.75
All GPT-3 numbers are from Brown et al [4] and all T0 numbers are from Sanh et al [1]. すべての GPT-3 数は Brown et al [4] からであり、すべての T0 数は Sanh et al [1] から来ている。
訳抜け防止モード: 全 GPT-3 数は Brown et al [ 4 ] すべての T0 数は Sanh et al [ 1 ] から来ている。
0.87
COPA H-Swag COPA H-Swag 0.35
StoryCloze Winogrande WSC StoryCloze Winogrande WSC 0.43
WiC T-Few - PT - LUL - LLN - PT - LUL - LLN WiC T-Few - PT - LUL - LLN - PT - LUL - LLN 0.46
93.02.0 92.02.0 91.02.0 94.02.3 RTE 93.02.0 92.02.0 91.02.0 94.02.3 RTE 0.16
67.16.0 64.56.6 52.12.7 52.74.9 CB 67.16.0 64.56.6 52.12.7 52.74.9 CB 0.16
T-Few - PT - LUL - LLN - PT - LUL - LLN T-Few - PT - LUL - LLN - PT - LUL - LLN 0.49
85.62.9 84.52.8 82.00.7 84.52.9 85.62.9 84.52.8 82.00.7 84.52.9 0.14
87.53.6 83.95.4 82.13.6 80.43.6 87.53.6 83.95.4 82.13.6 80.43.6 0.14
74.31.5 72.71.0 71.91.1 74.01.1 74.31.5 72.71.0 71.91.1 74.01.1 0.14
75.05.5 73.16.3 71.21.0 72.64.8 75.05.5 73.16.3 71.21.0 72.64.8 0.14
97.90.3 97.80.8 97.40.5 98.00.3 ANLI-R1 ANLI-R2 ANLI-R3 Acc. 97.90.3 97.80.8 97.40.5 98.00.3 ANLI-R1 ANLI-R2 ANLI-R3 Acc 0.16
72.4 70.8 68.3 69.7 72.4 70.8 68.3 69.7 0.23
59.33.6 57.93.2 54.80.4 57.13.1 59.33.6 57.93.2 54.80.4 57.13.1 0.14
49.82.6 48.63.0 46.10.6 47.12.4 49.82.6 48.63.0 46.10.6 47.12.4 0.14
44.88.0 43.15.7 40.85.2 43.85.9 44.88.0 43.15.7 40.85.2 43.85.9 0.14
62.157.8 60.86.4 62.22.4 62.65.0 62.157.8 60.86.4 62.22.4 62.65.0 0.14
Table 7: T-Few ablation results when omitting (IA)3 pre-training (PT) and/or the LLM and LLN losses. 表7: (IA)3事前訓練(PT)および/またはLLMおよびLLN損失の省略時にT-Fewアブレーションが生じる。 0.65
19 19 0.42
英語(論文から抽出)日本語訳スコア
s k s i R t n e m e t a t S s k s i R t n e m e t a t S 0.43
t c a p m I t c a p m 私 0.59
s p i r u e N s p i r u e n である。 0.75
s e p y T g r O s e p y t g r o である。 0.73
r o t c u d n o c i m e S r o t c u d n o c i m e s 0.41
n o i s u l c n I n o i s u l c n I 0.42
w e i v e R c i t a m e t s y S w e i v e R c i t a m e t s y S 0.43
h s i l g n E p o t h s i l g n E p o t 0.42
S e n O s e n o である。 0.51
g n i l u r r e v O g n i l u r r e v O 0.43
2 V s u p r o C e d A 2 V s u p r o C e d A 0.43
7 7 g n i k n a B 7 7 g n i k n a B 0.42
h c r a e s e R y t e f a S h c r a e s e R y t e f a S 0.42
i a T e c i v r e S f 私はtです e c i v r e s f である。 0.63
O s m r e T O s m r e T 0.42
e t a H l a v E e t a H l (複数形 ls) 0.40
t e e w T t e e w t である。 0.63
s t n i a l p m o C s t n i a l p m o C 0.43
r e t t i r e t i である。 0.73
w T 80.4 83.0 82.2 72.6 68.6 w T 80.4 83.0 82.2 72.6 68.6 0.32
69.5 60.7 59.3 53.8 29.9 69.5 60.7 59.3 53.8 29.9 0.22
83.3 85.7 85.7 87.2 67.9 83.3 85.7 85.7 87.2 67.9 0.22
67.6 64.6 64.6 52.1 43.1 67.6 64.6 64.6 52.1 43.1 0.22
95.0 91.7 90.8 90.7 93.7 95.0 91.7 90.8 90.7 93.7 0.22
91.5 90.8 81.6 68.2 76.9 91.5 90.8 81.6 68.2 76.9 0.22
50.8 46.8 49.3 49.3 51.6 50.8 46.8 49.3 49.3 51.6 0.22
73.6 60.9 63.8 62.8 65.6 73.6 60.9 63.8 62.8 65.6 0.22
75.0 62.7 57.6 62.0 57.4 75.0 62.7 57.6 62.0 57.4 0.22
58.6 72.2 48.3 53.2 52.6 58.6 72.2 48.3 53.2 52.6 0.22
87.9 89.7 82.4 83.7 82.1 87.9 89.7 82.4 83.7 82.1 0.22
Method T-Few Human baseline [2] 方法 T-Few ヒトベースライン[2] 0.53
PET [50] SetFit [51] GPT-3 [4] PET[50] SetFit[51] GPT-3[4] 0.48
Table 8: Detailed per-dataset results for T-Few and the other top-5 methods on RAFT. 表8: T-FewおよびRAFT上の他のトップ5メソッドのデータセット毎の詳細な結果。 0.67
20 20 0.43
                                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。