論文の概要、ライセンス

# (参考訳) OPT: 事前学習型トランスフォーマー言語モデル [全文訳有]

OPT: Open Pre-trained Transformer Language Models ( http://arxiv.org/abs/2205.01068v3 )

ライセンス: CC BY 4.0
Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer(参考訳) 数十万日にわたって訓練されている大規模な言語モデルは、ゼロショットと少数ショットの学習に顕著な能力を示している。 計算コストを考えると、これらのモデルは大金なしで複製することは困難である。 APIを通じて利用できる少数の人にとっては、完全なモデルウェイトへのアクセスは許可されていないため、研究は困難である。 我々は,125mから175bのパラメータを持つデコーダ専用プリトレーニングトランスのスイートであるopen pre-trained transformers (opt)を提案する。 OPT-175BはGPT-3と同等であり, 炭素フットプリントの1/7しか必要としない。 また、私たちが直面したインフラストラクチャの課題の詳細と、リリースしたすべてのモデルを試すためのコードもリリースしています。

Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these models are difficult to replicate without significant capital. For the few that are available through APIs, no access is granted to the full model weights, making them difficult to study. We present Open Pre-trained Transformers (OPT), a suite of decoder-only pre-trained transformers ranging from 125M to 175B parameters, which we aim to fully and responsibly share with interested researchers. We show that OPT-175B is comparable to GPT-3, while requiring only 1/7th the carbon footprint to develop. We are also releasing our logbook detailing the infrastructure challenges we faced, along with code for experimenting with all of the released models.
公開日: Thu, 5 May 2022 11:44:30 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
OPT: Open Pre-trained Transformer Language Models OPT: 事前学習型トランスフォーマー言語モデル 0.78
Susan Zhang∗∗, Stephen Roller∗, Naman Goyal∗, Susan Zhang∗∗, Stephen Roller∗, Naman Goyal∗ 0.42
Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott††, Sam Shleifer†, Kurt Shuster, Daniel Simig, Mikel Artetxe氏、Moya Chen氏、Shuohui Chen氏、Christopher Dewan氏、Mona Diab氏、Xian Li氏、Xi Victoria Lin氏、Todor Mihaylov氏、Myle Ott'氏、Sam Shleiferi氏、Kurt Shuster氏、Daniel Simig氏。 0.70
Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer 0.43
{susanz,roller,naman}@fb.com {susanz,roller,naman}@fb.com 0.49
Meta AI 2 2 0 2 メタAI 2 2 0 2 0.49
y a M 5 ] L C . y a M 5 ]LC。 0.32
s c [ 3 v 8 6 0 1 0 sc [ 3 v 8 6 0 1 0 0.34
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. 概要 数十万日にわたって訓練されている大規模な言語モデルは、ゼロショットと少数ショットの学習に顕著な能力を示している。 0.56
Given their computational cost, these models are difficult to replicate without significant capital. 計算コストを考えると、これらのモデルは大金なしで複製することは困難である。 0.60
For the few that are available through APIs, no access is granted to the full model weights, making them difficult to study. APIを通じて利用できる少数の人にとっては、完全なモデルウェイトへのアクセスは許可されていないため、研究は困難である。 0.66
We present Open Pre-trained Transformers (OPT), a suite of decoder-only pre-trained transformers ranging from 125M to 175B parameters, which we aim to fully and responsibly share with interested researchers. 我々は,125mから175bのパラメータを持つデコーダ専用プリトレーニングトランスのスイートであるopen pre-trained transformers (opt)を提案する。 0.63
We show that OPT-175B is comparable to GPT-3,1 while requiring only 1/7th the carbon footprint to develop. OPT-175BはGPT-3,1と同等であり, 炭素フットプリントの1/7しか必要としない。 0.62
We are also releasing our logbook detailing the infrastructure challenges we faced, along with code for experimenting with all of the released models. また、私たちが直面したインフラストラクチャの課題の詳細と、リリースしたすべてのモデルを試すためのコードもリリースしています。 0.59
Introduction 1 Large language models (LLMs) trained on massive text collections have shown surprising emergent capabilities to generate text and perform zero- and few-shot learning (Brown et al , 2020; Lieber et al , 2021; Smith et al , 2022; Rae et al , 2021; Chowdhery et al , 2022). はじめに 1 大規模なテキストコレクションでトレーニングされた大規模言語モデル(LLMs)は、テキストを生成し、ゼロと少ショットの学習を実行する驚くべき創発的能力を示している(Brown et al , 2020; Lieber et al , 2021; Smith et al , 2022; Rae et al , 2021; Chowdhery et al , 2022)。 0.66
While in some cases the public can interact with these models through paid APIs, full model access is currently limited to only a few highly resourced labs.2 有料のAPIを通じてこれらのモデルと対話できるケースもあるが、完全なモデルアクセスは現在、ごく少数の高リソースのラボに限られている。 0.62
This restricted access has limited researchers’ ability to study how and why these large language models work, hindering この制限されたアクセスは、これらの大きな言語モデルがどのように機能するか、なぜ機能するのかを研究する研究者の能力を制限する。
訳抜け防止モード: この制限されたアクセスは研究者の能力を制限する 大きな言語モデルがどのように機能するか 研究し
0.79
∗Equal contribution. †Work done while at Meta AI. 等しく貢献する。 Meta AIで仕事をした。 0.63
1Following Brown et al (2020), we use GPT-3 to refer to 1Foling Brown et al (2020) を参照して GPT-3 を用いる。 0.81
both the 175B model and the smaller scale models as well. 175bモデルと小型モデルの両方である。 0.67
2Exceptions include work by EleutherAI, who released dense models up to 20B in size (Black et al , 2022), Salesforce (Nijkamp et al , 2022), and Meta AI, who released dense models up to 13B and sparse models up to 1.1T (Artetxe et al , 2021). 2つの例外として、EleutherAIが20Bまでの高密度モデル(Black et al , 2022)、Salesforce(Nijkamp et al , 2022)、Meta AIが13Bまでの高密度モデルと1.1Tまでのスパースモデル(Artetxe et al , 2021)をリリースした。 0.79
There is also ongoing work from the BigScience workshop (https://bigscience. huggingface.co/), which aims to open source very large multilingual language models and datasets. BigScienceワークショップ(https://bigscience. huggingface.co/)も進行中で、非常に大規模な多言語言語モデルとデータセットのオープンソース化を目指している。 0.71
progress on improving known challenges in areas such as robustness, bias, and toxicity. 堅牢性、バイアス、毒性などの領域における既知の課題の改善の進捗。 0.63
In this technical report, we present Open Pretrained Transformers (OPT), a suite of decoderonly pre-trained transformers ranging from 125M to 175B parameters, which we aim to fully and responsibly share with interested researchers. 本技術報告では、125Mから175Bのパラメータをデコードして事前学習するOpen Pretrained Transformers(OPT)について述べる。
訳抜け防止モード: 本技術報告では,Open Pretrained Transformers (OPT) について述べる。 125Mから175Bパラメータのデコードされた事前訓練されたトランスフォーマーの組 興味のある研究者と完全に責任を持って 共有することを目指しています
0.71
We train the OPT models to roughly match the performance and sizes of the GPT-3 class of models, while also applying the latest best practices in data collection and efficient training. 我々は、データ収集と効率的なトレーニングにおいて最新のベストプラクティスを適用しながら、PT-3クラスの性能とサイズをほぼ一致させるために、OPTモデルを訓練する。 0.70
Our aim in developing this suite of OPT models is to enable reproducible and responsible research at scale, and to bring more voices to the table in studying the impact of these LLMs. 本研究の目的は, 再現性, 責任のある大規模研究を可能とし, これらのLCMの効果を研究する上で, より多くの声をテーブルに取り入れることである。 0.66
Definitions of risk, harm, bias, and toxicity, etc., should be articulated by the collective research community as a whole, which is only possible when models are available for study. リスク、危害、偏見、毒性などの定義は、集団的な研究コミュニティ全体によって明確化されるべきであり、モデルが研究に利用できる場合にのみ可能である。 0.79
We are releasing all of our models between 125M and 30B parameters, and will provide full research access to OPT-175B upon request. 125Mから30Bのパラメータですべてのモデルをリリースし、リクエストに応じてOPT-175Bへの完全な研究アクセスを提供します。 0.71
Access will be granted to academic researchers; those affiliated with organizations in government, civil society, and academia; and those in industry research laboratories. 学術研究者、政府、市民社会、アカデミックの組織に属する研究者、および産業研究研究所の研究者に、アクセスが与えられる。
訳抜け防止モード: アクセスは,学術研究者,政府,市民社会,学界の組織に属する研究者に対して付与される。 産業研究所の人たちです
0.77
We are also releasing both the logbook of our model creation as well as our codebase, metaseq,3 which enabled training OPT-175B on 992 80GB A100 GPUs, reaching 147 TFLOP/s utilization per GPU. 私たちはまた、モデル作成のログブックと、コードベースのmethaq,3もリリースしています。これにより、992 80GB A100 GPU上でOPT-175Bをトレーニングすることが可能になり、1GPU当たり147 TFLOP/sに到達しました。
訳抜け防止モード: モデル作成のログブックとコードベースもリリースしています。 992 80 GB A100 GPU上で OPT-175B のトレーニングを可能にし、GPU当たり 147 TFLOP / s に到達した。
0.70
From this implementation, and from using the latest generation of NVIDIA hardware, we are able to develop OPT-175B using only 1/7th the carbon footprint of GPT-3. この実装と、最新のNVIDIAハードウェアを使用することで、GPT-3の炭素フットプリントの1/7だけを使用してOPT-175Bを開発することができる。 0.68
While this is a significant achievement, the energy cost of creating such a model is still nontrivial, and repeated efforts to replicate a model of this size will only amplify the growing compute footprint of these LLMs. これは大きな成果であるが、そのようなモデルを作成するためのエネルギーコストは依然として自明であり、このサイズのモデルを再現するための繰り返しの努力は、これらのLSMの計算フットプリントの増大を増幅するだけである。 0.65
We believe the entire AI community — academic researchers, civil society, policymakers, and industry — must work together to develop clear AIコミュニティ全体 — 学術研究者、市民社会、政策立案者、産業 — は、明確化のために協力しなければなりません。 0.66
3https://github.com/ facebookresearch/ 3https://github.com/ facebookresearch/ 0.20
metaseq メタセック 0.45
英語(論文から抽出)日本語訳スコア
Model 125M 12 350M 24 1.3B 24 32 2.7B 32 6.7B 40 13B 30B 48 96 175B Model 125M 12 350M 24 1.3B 24 32 2.7B 32 6.7B 40 13B 30B 48 96 175B 0.33
#L #H dmodel 768 1024 2048 2560 4096 5120 7168 12288 #L #H dmodel 768 1024 2048 2560 4096 5120 7168 12288 0.42
12 16 32 32 32 40 56 96 12 16 32 32 32 40 56 96 0.43
LR Batch 0.5M 0.5M 1M 1M 2M 4M 4M 2M LRバッチ0.5M 0.5M 1M 2M 4M 2M 0.64
6.0e−4 3.0e−4 2.0e−4 1.6e−4 1.2e−4 1.0e−4 1.0e−4 1.2e−4 6.0e−4 3.0e−4 2.0e−4 1.6e−4 1.2e−4 1.0e−4 1.0e−4 1.2e−4 0.11
Table 1: Model architecture details. 表1: モデルアーキテクチャの詳細。 0.81
We report the number of layers (#L), number of attention heads (#H), and the embedding size (dmodel). 本稿では,レイヤ数(#L),アテンションヘッド数(#H),埋め込みサイズ(dmodel)について報告する。 0.57
We also report the peak Learning Rate (LR) and global batch size in number of tokens (Batch). また,トークン数におけるピーク学習率(lr)とグローバルバッチサイズ(batch)について報告する。 0.76
guidelines around responsible AI in general and responsible LLMs in particular, given their centrality in many downstream language applications. 多くの下流言語アプリケーションにおいて、責任あるAIに関するガイドライン、特に責任あるLLMに関するガイドライン。 0.61
A much broader segment of the AI community needs access to these models in order to conduct reproducible research and collectively drive the field forward. aiコミュニティのより広い部分では、再現可能な研究を行い、総合的にこの分野を前進させるために、これらのモデルへのアクセスが必要です。
訳抜け防止モード: AIコミュニティのもっと広い部分では、これらのモデルに順にアクセスできる必要がある 再現可能な研究を行い フィールドを前進させます
0.75
With the release of OPT-175B and smaller-scale baselines, we hope to increase the diversity of voices defining the ethical considerations of such technologies. OPT-175Bと小型のベースラインのリリースにより、このような技術の倫理的配慮を定義する音声の多様性が増すことを願っている。
訳抜け防止モード: OPT-175Bと小型のスケールベースラインのリリースに期待 このような技術の倫理的配慮を定義する声の多様性を高めること。
0.67
2 Method 2.1 Models We present results on eight Transformer language models ranging from 125 million to 175 billion parameters. 2 方法 2.1モデルは、125億から175億のパラメータの8つのトランスフォーマー言語モデルの結果を示す。 0.58
Architectural details are displayed in Table 1. アーキテクチャの詳細はテーブル1に表示される。 0.70
In the interest of transparency, and to reduce risk of training instabilities, our models and hyperparameters largely follow Brown et al (2020), with variations in batch size mostly to obtain increased computational efficiency. 透明性への関心、およびトレーニング不安定性のリスクを低減するため、我々のモデルとハイパーパラメータは、主にブラウン等(2020年)に従っており、バッチサイズのバリエーションは、計算効率の向上を主な目的としている。
訳抜け防止モード: 透明性、そして トレーニング不安定のリスクを減らします 我々のモデルとハイパーパラメータは主にBrown et al (2020 )に従っています。 バッチサイズが変化して 計算効率が向上しました
0.70
2.2 Training Setup For weight initialization, we follow the same settings provided in the Megatron-LM codebase,4 using a normal distribution with zero mean and standard deviation of 0.006. 2.2 トレーニングセットアップ 重量初期化では,平均値0の正規分布と標準偏差0.006の標準偏差を用いて,Megatron-LMコードベースの4と同じ設定に従う。 0.73
Standard deviation for output layers are scaled by a 1.0/ 2L term where L is the total number of layers. 出力層に対する標準偏差は、Lが総層数である1.0/2L項によってスケールされる。 0.74
All bias terms are initialized as 0, and all models are trained with ReLU activation and a sequence length of 2048. すべてのバイアス項は0で初期化され、全てのモデルはreluアクティベーションとシーケンス長2048で訓練される。 0.82
√ 4https://github.com/ NVIDIA/ √ 4https://github.com/ NVIDIA/ 0.31
Megatron-LM/blob/mai n/examples/pretrain_ gpt3_175B.sh Megatron-LM/blob/mai n/examples/pretrain_ gpt3_175B.sh 0.09
We use an AdamW optimizer (Loshchilov and Hutter, 2017) with (β1, β2) set to (0.9, 0.95), and weight decay of 0.1. 我々は,AdamWオプティマイザ (Loshchilov and Hutter, 2017) を用いて (β1, β2) を (0.9, 0.95) とし,ウェイト崩壊は0.1。 0.72
We follow a linear learning rate schedule, warming up from 0 to the maximum learning rate over the first 2000 steps in OPT-175B, or over 375M tokens in our smaller baselines, and decaying down to 10% of the maximum LR over 300B tokens. 我々は線形学習率のスケジュールに従い、OPT-175Bの最初の2000ステップで0から最大学習率にウォームアップし、より小さなベースラインで375万トークンを達成し、300Bを超える最大LRの10%まで低下させる。 0.78
A number of mid-flight changes to LR were also required (see Section 2.5). lrの飛行途中の変更もいくつか必要であった(第2.5条参照)。 0.58
Our batch sizes range from 0.5M to 4M depending on the model size (see Table 1) and is kept constant throughout the course of training. バッチサイズはモデルサイズによって0.5mから4mになり(表1参照)、トレーニング期間を通じて一定に保たれます。 0.65
We use a dropout of 0.1 throughout, but we do not apply any dropout to embeddings. 全体のドロップアウトは0.1ですが、埋め込みにドロップアウトは適用しません。
訳抜け防止モード: 私たちは全体の0.1のドロップアウトを使います。 しかし 埋め込みには ドロップアウトは適用しません
0.65
We clip gradient norms at 1.0, except for some midflight changes that reduce this threshold down from 1.0 to 0.3 (see Section 2.5). 我々は、この閾値を1.0から0.3に下げる飛行中のいくつかの変更を除いて、勾配ノルムを1.0でクリップする(第2.5節参照)。
訳抜け防止モード: 飛行中の変更を除いて、1.0で勾配ノルムをクリップします。 この閾値を 1.0 から 0.3 に下げる(セクション2.5 参照)。
0.61
We also include a gradient predivide factor to reduce the risk of over/underflows when computing the gradient across all ranks (splitting the division by the world size of N into two division operations by また,全ランクの勾配を計算した場合のオーバー・アンダーフローのリスクを低減させる勾配前分割係数 (n を 2 つの分割演算に分割する) も含む。 0.79
N). √ 2.3 Pre-training Corpus The pre-training corpus contains a concatenation of datasets used in RoBERTa (Liu et al , 2019b), the Pile (Gao et al , 2021a), and PushShift.io Reddit (Baumgartner et al , 2020; Roller et al , 2021). n)であった。 √ 2.3 事前トレーニングコーパス 事前トレーニングコーパスには、RoBERTa (Liu et al , 2019b)、Pile (Gao et al , 2021a)、PushShift.io Reddit (Baumgartner et al , 2020; Roller et al , 2021)で使用されるデータセットの連結が含まれている。 0.55
All corpora were previously collected or filtered to contain predominantly English text, but a small amount of non-English data is still present within the corpus via CommonCrawl. すべてのコーパスは以前収集またはフィルタリングされ、主に英語のテキストを含んでいるが、CommonCrawlを介してコーパス内には少数の非英語データが存在する。 0.62
We removed duplicated documents across all datasets by filtering out documents via MinhashLSH (Rajaraman and Ullman, 2011) with a Jaccard similarity ≥ .95. 我々は、Jaccard類似度 ≥ .95 でMinhashLSH (Rajaraman and Ullman, 2011) を介して文書をフィルタリングすることにより、すべてのデータセットにわたって複製された文書を除去した。 0.58
We found the Pile was particularly full of duplicate documents, and advise future researchers using the Pile to perform additional de-duplication processing. 我々はパイルが特に重複した文書でいっぱいであることを発見し、パイルを使ってさらなる重複解消処理を行う研究者に助言した。 0.60
We tokenize all corpora using the GPT-2 byte level BPE tokenizer (Sennrich et al , 2016; Radford et al , 2019; Brown et al , 2020). GPT-2 バイトレベル BPE トークン化器 (Sennrich et al , 2016; Radford et al , 2019; Brown et al , 2020) を用いて全コーパスをトークン化する。 0.85
Our final corpus contains roughly 180B tokens. 最終コーパスにはおよそ180bのトークンが含まれています。 0.43
RoBERTa We included the BookCorpus (Zhu et al , 2015) and Stories (Trinh and Le, 2018) subsets of the RoBERTa corpus and utilized an updated version of CCNews, containing news stories crawled through September 28, 2021. RoBERTa コーパスの BookCorpus (Zhu et al , 2015) と Stories (Trinh and Le, 2018) サブセットが含まれており、2021年9月28日までのニュース記事を含む CCNews の更新版を利用している。 0.78
This CCNews v2 corpus was preprocessed the same way as the original RoBERTa CCNews (Liu et al , 2019b). このCCNews v2コーパスはオリジナルのRoBERTa CCNews(Liu et al , 2019b)と同じ方法で前処理された。 0.77
The Pile We included a subset of the Pile (Gao et al , 2021a), including: CommonCrawl, この山(gao et al , 2021a)には、commoncrawlを含む部分が含まれている。 0.52
英語(論文から抽出)日本語訳スコア
DM Mathematics, Project Gutenberg, HackerNews, OpenSubtitles, OpenWebText2, USPTO and Wikipedia. DM Mathematics、Project Gutenberg、HackerNews、OpenSubtitles、OpenWebText2、USPTO、Wikipedia。 0.39
Other subsets of the Pile were eliminated as we found they increased the risk of instabilities, as measured by tendency to cause spikes in gradient norms at the 1.3B scale, or were otherwise deemed unsuitable. 1.3Bスケールで勾配ノルムのスパイクを引き起こす傾向によって測定されたり、そうでなければ不適であると判断されたりして、パイルの他のサブセットは除去された。
訳抜け防止モード: 他の部分集合は不安定性のリスクが高まると除去された。 1.3bスケールで勾配ノルムのスパイクを引き起こす傾向によって測定されるように または不適当と見なされた。
0.69
All subsets went through additional ad-hoc whitespace normalization. すべてのサブセットは、追加のアドホックな空白正規化を経た。 0.50
PushShift.io Reddit We included a subset of the Pushshift.io corpus produced by Baumgartner et al (2020) and previously used by Roller et al (2021). PushShift.io Reddit Baumgartner et al (2020) が生産し、Roller et al (2021) が使用していた Pushshift.io コーパスのサブセットを含む。 0.78
To convert the conversational trees into language-model-acces sible documents, we extracted the longest chain of comments in each thread and discarded all other paths in the tree. 会話木を言語モデルにアクセス可能なドキュメントに変換するため、各スレッドで最長のコメントチェーンを抽出し、ツリー内の他のすべてのパスを破棄した。 0.71
This reduced the corpus by about 66%. これによりコーパスは約66%削減された。 0.59
2.4 Training Efficiency We trained OPT-175B on 992 80GB A100 GPUs, by utilizing Fully Sharded Data Parallel (Artetxe et al , 2021) with Megatron-LM Tensor Parallelism (Shoeybi et al , 2019). 2.4 トレーニング効率 992 80GB A100 GPU 上で OPT-175B をトレーニングし,Fully Sharded Data Parallel (Artetxe et al , 2021) と Megatron-LM Tensor Parallelism (Shoeybi et al , 2019) を併用した。 0.78
We achieve utilization of up to 147 TFLOP/s per GPU. 最大147 TFLOP/sのGPU利用を実現している。 0.73
We keep Adam state in FP32, since we shard it across all hosts, while the model weights remained in FP16. モデル重量はfp16のままで、すべてのホストに分散するため、adamステートをfp32に保持しています。
訳抜け防止モード: 我々は、Adam state in FP32, since 全ホストでシャードし、モデル重量はFP16のままでした。
0.74
To avoid underflows, we used dynamic loss scaling, as described in Micikevicius et al (2017). アンダーフローを避けるために、Micikevicius et al (2017)に記載されているように、動的損失スケーリングを使用した。 0.57
2.5 Training Processes Here we describe significant training process adjustments that arose during OPT-175B pre-training. 2.5 トレーニングプロセス ここでは, opt-175b 事前トレーニング中に生じた重要なトレーニングプロセス調整について述べる。 0.59
Hardware Failures We faced a significant number of hardware failures in our compute cluster while training OPT-175B. ハードウェア障害 OPT-175Bのトレーニング中に、計算クラスタでかなりの数のハードウェア障害に直面しました。 0.59
In total, hardware failures contributed to at least 35 manual restarts and the cycling of over 100 hosts over the course of 2 months. 合計すると、ハードウェアの故障は少なくとも35回の手動再起動と2ヶ月にわたって100以上のホストのサイクリングに寄与した。 0.72
During manual restarts, the training run was paused, and a series of diagnostics tests were conducted to detect problematic nodes. 手動再起動中、トレーニング実行は一時停止され、問題のあるノードを検出するための一連の診断テストが行われた。 0.68
Flagged nodes were then cordoned off and training was resumed from the last saved checkpoint. フラグ付きのノードは、最後に保存されたチェックポイントからトレーニングが再開された。 0.70
Given the difference between the number of hosts cycled out and the number of manual restarts, we estimate 70+ automatic restarts due to hardware failures. サイクルアウトしたホスト数と手動の再起動数の違いを考慮し、ハードウェア障害による70以上の自動再起動を推定する。 0.79
Loss Divergences Loss divergences were also an issue in our training run. Loss Divergences Lossの相違も私たちのトレーニングランでは問題でした。 0.65
When the loss diverged, we found that lowering the learning rate and restarting from an earlier checkpoint allowed for the job to recover and continue training. 損失が分散すると、学習率の低下と早期チェックポイントからの再開により、仕事の回復とトレーニングの継続が可能となった。 0.71
We noticed a correlation between loss divergence, our dynamic loss 損失の発散と動的損失の相関に気付きました 0.73
Figure 1: Empirical LR schedule. 図1:実証LRスケジュール。 0.72
We found that lowering learning rate was helpful for avoiding instabilities. その結果,学習率の低下は不安定性回避に役立つことがわかった。 0.58
Figure 2: Validation Perplexity. 図2: 検証の複雑さ。 0.63
Our mid-flight LR changes had clear effects on validation perplexity. 飛行途中のLR変化は、検証難易度に明らかな影響を及ぼした。 0.52
scalar crashing to 0, and the l2-norm of the activations of the final layer spiking. スカラーは0にクラッシュし、最終層の活性化のl2ノルムはスパイクする。 0.62
These observations led us to pick restart points for which our dynamic loss scalar was still in a “healthy” state (≥ 1.0), and after which our activation norms would trend downward instead of growing unboundedly. これらの観測結果から、動的損失スカラーが依然として“健全”状態(≥ 1.0)であり、その後アクティベーションノルムがアンバウンドではなく下向きに傾向するリスタートポイントを選択できたのです。 0.71
Our empirical LR schedule is shown in Figure 1. 実験的なLRスケジュールを図1に示します。 0.76
Early in training, we also noticed that lowering gradient clipping from 1.0 to 0.3 helped with stability; see our released logbook for exact details. トレーニングの初期段階では、勾配クリッピングを1.0から0.3に下げることで安定性が向上していることにも気付きました。
訳抜け防止モード: 訓練の初期には 勾配クリッピングを1.0から0.3に下げると安定性が向上した 詳細はリリース済みのログブックを参照してください。
0.70
Figure 2 shows our validation loss with respect to training iterations. 図2は、トレーニングイテレーションに関する検証損失を示しています。 0.76
Other Mid-flight Changes We conducted a number of other experimental mid-flight changes to handle loss divergences. その他の飛行中の変化 損失の発散に対処するために, 実験的な飛行中の変化を多数実施した。 0.52
These included: switching to vanilla SGD (optimization plateaued quickly, and we reverted back to AdamW); resetting the dynamic loss scalar (this helped recover some but not all divergences); and switching to a newer version of Megatron (this reduced pressure on activation norms and improved throughput). その中には、バニラSGD(最適化が素早く、私たちはAdamWに戻す)への切り替え、ダイナミックなロススカラーのリセット(これはすべてのばらつきを回復するのに役立った)、Megatronの新バージョンへの切り替え(アクティベーション基準のプレッシャーの削減とスループットの改善)が含まれていました。 0.68
0k20k40k60k80k100k12 0k140kIterations0.0e -40.2e-40.4e-40.6e-4 0.8e-41.0e-41.2e-4Le arning RateEmpirical Learning Rate0k20k40k60k80k10 0k120k140kIterations 7.07.58.08.59.09.510 .0PerplexityValidati on Perplexity 0k20k40k40k80k100k12 0k140kIterations0.0e -40.2e-40.4e-40.4e-4 0.8e-41.0e-41.2e-4Le arning RateEmpirical Learning Rate0k20k40k40k80k10 0k120k140kIterations 7.07.58.08.59.09.510 .0PerplexityValidati on Perplexity 0.04
英語(論文から抽出)日本語訳スコア
3 Evaluations 3.1 Prompting & Few-Shot We evaluate our model on 16 standard NLP tasks utilized in the literature: HellaSwag (Zellers et al , 2019), StoryCloze (Mostafazadeh et al , 2016), PIQA (Bisk et al , 2020), ARC Easy and Challenge (Clark et al , 2018), OpenBookQA (Mihaylov et al , 2018), WinoGrad (Levesque et al , 2011), WinoGrande (Sakaguchi et al , 2020), and SuperGLUE (Wang et al , 2019). 3評価: 3.1プロンプトとマイショット 文献で使用される16の標準nlpタスクについて評価する: hellaswag (zellers et al , 2019), storycloze (mostafazadeh et al , 2016), piqa (bisk et al , 2020), arc easy and challenge (clark et al , 2018), openbookqa (mihaylov et al , 2018), winograd (levesque et al , 2011), winogrande (sakaguchi et al , 2020), superglue (wang et al , 2019)。 0.70
We follow GPT-3 (Brown et al , 2020) by using their prompts and overall experimental setup. 我々はGPT-3(Brown et al , 2020)のプロンプトと総合的な実験装置を用いて追跡する。 0.73
We compare primarily to GPT-3, having aimed to re-implement their evaluation settings, but include reported performance of other LLMs on a per-task basis when available (Lieber et al , 2021; Rae et al , 2021; Hoffmann et al , 2022; Black et al , 2022) 評価設定の再実装を目標とした GPT-3 と比較するが,利用可能であれば,他の LLM の報告を含む(Lieber et al , 2021; Rae et al , 2021; Hoffmann et al , 2022; Black et al , 2022)。 0.83
We report performance in accuracy (omitting F1 for MultiRC and ReCoRD for consistency in evaluation metrics). 評価指標の整合性については,MultiRC と ReCoRD の F1 を省略した精度で報告する。 0.69
For the Winograd Schema Challenge (WSC) task in the SuperGLUE benchmark, we follow (Brown et al , 2020) and formulate the task as multiple choice questions, which is known to affect performance (Liu et al , 2020). superglueベンチマークにおけるwinograd schema challenge(wsc)タスクについては、(brown et al , 2020)に従って、タスクを複数の選択質問として定式化し、パフォーマンスに影響を与えることが知られている(liu et al , 2020)。 0.65
Zero-shot Overall average zero-shot performance across all 14 tasks may be seen in Figure 3. ゼロショット全体の14タスクの平均ゼロショットパフォーマンスは、図3に示されている。 0.69
Overall, we see our average performance follows the trend of GPT-3. 総じて、GPT-3の傾向に従えば、平均的なパフォーマンスが得られる。 0.60
However, performance can vary radically across the tasks: for a full breakdown, see Appendix A. Note that we intentionally removed MultiRC and WIC from these averages, as these datasets seem to systematically favor GPT-3 or OPT disproportionately. これらのデータセットは体系的にgpt-3を好んでいるか、あるいは不釣り合いにオプトしているように思えるので、意図的にこれらの平均からmultircとwicを取り除いたことに注意してください。
訳抜け防止モード: しかし、パフォーマンスはタスクによって大きく異なります。 これらの平均からMultiRCとWICを意図的に取り除いたことに注意してください。 これらのデータセットは系統的にGPT-3またはOPTを不均等に好んでいるように見える。
0.57
Our performance roughly matched GPT-3 for 10 tasks, and underperformed in 3 tasks (ARC Challenge and MultiRC). 性能は10タスクでGPT-3と大まかに一致し,3タスク(ARC ChallengeとMultiRC)では不十分であった。 0.62
In 3 tasks (CB, BoolQ, WSC), we find both GPT and OPT models display unpredictable behavior with respect to scale, likely due to the small size of the validation set in these 3 tasks (56, 277, and 104 examples, respectively). 3つのタスク (CB, BoolQ, WSC) において, GPT モデルと OPT モデルの両方がスケールに関して予測不可能な振る舞いを示すことが判明した。
訳抜け防止モード: 3つのタスク (CB, BoolQ, WSC ) において, GPT モデルと OPT モデルの両方がスケールに関して予測不可能な振る舞いを示す。 これらの3つのタスク(56。 277例, 104例であった。
0.64
In WIC, we see that the OPT models always outperform the GPT-3 models, though the numbers reported by Brown et al (2020) also seem questionable, given WIC being a binary classification task.5 WIC では、OPT モデルは常に GPT-3 モデルより優れているが、Brown et al (2020) が報告した数値は、WIC がバイナリ分類タスクであることを考えると、疑わしい。 0.77
For MultiRC, we are unable to replicate the GPT-3 results using the Davinci API6 within our evaluation setup, suggesting differences in the methods 5Brown et al (2020) reports 0% accuracy on WIC, which MultiRCでは,評価設定にDavinci API6を用いてGPT-3の結果を再現できないため,5Brown et al (2020)では,WICの精度が0%であることが示唆された。 0.79
implies 100% accuracy if the classification was inverted. 分類が逆の場合、100%の精度を意味する。 0.70
6https://beta.openai .com/docs/engines/ 6https://beta.openai .com/docs/engines/ 0.15
overview Figure 3: Zero-shot NLP Evaluation Averages. 概要 図3:ゼロショットNLP評価平均値。 0.74
Across a variety of tasks and model sizes, OPT largely matches the reported averages of GPT-3. 様々なタスクやモデルサイズにおいて、OPTは報告されたGPT-3の平均値と大きく一致している。 0.57
However, performance varies greatly per task: see Appendix A. しかし、パフォーマンスはタスクごとに大きく異なります。 0.42
Figure 4: Multi-shot performance. 図4:マルチショットのパフォーマンス。 0.73
OPT performance for one- and few-shot lags behind GPT-3 models, but performance depends heavily per task; see Appendix A. GPT-3モデルの1発と数発のラグに対するOPTパフォーマンスは、タスク毎に大きく依存する。 0.66
of evaluation on this task. この課題に対する評価です 0.54
For BoolQ and WSC, we note that both OPT and GPT models seem to hover around majority-class accuracy, suggesting small perturbations in probability masses may be dominating the evaluations. BoolQ と WSC では,OPT モデルと GPT モデルの両方が多数階層の精度を保ちつつあり,確率質量の小さな摂動が評価を支配している可能性が示唆されている。 0.72
Chinchilla (Hoffmann et al , 2022) and Gopher (Rae et al , 2021) perform roughly consistently with others for their parameter sizes, while PaLM (Chowdhery et al , 2022) generally performs better across all settings, even when controlling for number of parameters. Chinchilla (Hoffmann et al , 2022) と Gopher (Rae et al , 2021) はパラメータサイズに関してほぼ一貫した動作をしており、PaLM (Chowdhery et al , 2022) はパラメータ数を制御する場合であっても、一般にすべての設定においてより優れた処理を行う。 0.82
We speculate the high performance of PaLM comes predominantly from higher quality and diversity of pre-training data. PaLMの高性能化は、主に事前学習データの品質と多様性から生じると推測する。 0.67
One-shot and Few-shot Average multi-shot incontext performance is shown in Figure 4 (again, omitting MultiRC and WIC), with detailed performances shown in Appendix A. Across the average 図4(これもMultiRCとWICを省略する)に1ショットと2ショットの平均非コンテキストパフォーマンスが示され、Appendix Aで詳細なパフォーマンスが示されている。 0.74
10810910101011Parame ters5055606570Avg. 108109101011 パラメータ5055606570Avg 0.51
AccuracyAverage across 14 NLP Tasks (Zero-Shot)OPTGPT108 10910101011Parameter s505560657075Avg. 14個のnlpタスク (ゼロショット)optgpt1081091010101 011parameters5055606 57075avgの精度 0.57
AccuracyAverage across 14 NLP TasksShot0132SeriesO PTGPT 14 NLPタスクShot0132SeriesOPTGPT における平均精度 0.49
英語(論文から抽出)日本語訳スコア
of all metrics, we find that OPT models perform similarly to GPT-3 models. すべての指標から,OPTモデルとGPT-3モデルが類似していることがわかった。 0.67
However, as with zeroshot, breaking down these results per task shows a different story: in the same set of 10 datasets as zero-shot, we see similar performance across the two models. しかし、ゼロショットと同様に、タスク毎にこれらの結果を分解すると、異なるストーリーが示される:ゼロショットと同じ10のデータセットセットでは、2つのモデルで同様のパフォーマンスが見られます。 0.67
Some of the remaining datasets show inconsistent performance with respect to model size for both OPT and GPT-3 models (BoolQ, CB, WSC, RTE). 残りのデータセットのいくつかは、OPTモデルとGPT-3モデル(BoolQ、CB、WSC、RTE)のモデルサイズに関して一貫性のない性能を示している。 0.62
In MultiRC, we consistently see underperformance of OPT models compared to GPT3 models. MultiRC では,PT3 モデルと比較して OPT モデルの過小評価が一貫して行われている。 0.61
Similar to our zero-shot evaluation, we hypothesize our one- and few-shot evaluation setup may differ significantly from Brown et al (2020). ゼロショット評価と同様、単発と少数発の評価設定はBrown et al (2020)と大きく異なるかもしれないと仮定する。 0.70
3.2 Dialogue Given that LLMs are known to be an integral component of modern dialogue models (Adiwardana et al , 2020; Roller et al , 2021; Thoppilan et al , 2022; Rae et al , 2021; Chowdhery et al , 2022), we additionally evaluate OPT-175B on several open source dialogue datasets. 3.2対話 LLMが現代の対話モデル(Adiwardana et al , 2020; Roller et al , 2021; Thoppilan et al , 2022; Rae et al , 2021; Chowdhery et al , 2022)の不可欠な構成要素であることを考えると、OPT-175Bをいくつかのオープンソースの対話データセット上で評価する。 0.71
In particular, we follow Roller et al (2021), and evaluate on ConvAI2 (Dinan et al , 2020b), Wizard of Wikipedia (Dinan et al , 2019b), Empathetic Dialogues (Rashkin et al , 2019), and Blended Skill Talk (Smith et al , 2020). 特に、Roller et al (2021), and evaluate on ConvAI2 (Dinan et al , 2020b), Wizard of Wikipedia (Dinan et al , 2019b), Empathetic Dialogues (Rashkin et al , 2019), and Blended Skill Talk (Smith et al , 2020)。
訳抜け防止モード: 特に、Roller et al (2021 )に従う。 ConvAI2 (Dinan et al, 2020b ) について検討した。 Wizard of Wikipedia (Dinan et al, 2019b ), Empathetic Dialogues (Rashkin et al, 2019 ) そしてBlended Skill Talk (Smith et al, 2020)。
0.73
We additionally evaluate on the more recent Wizard of Internet dataset (Komeili et al , 2021). また、最近のWizard of Internetデータセット(Komeili et al , 2021)についても検討した。 0.71
We focus our comparisons primarily against existing open source dialogue models including the fine-tuned BlenderBot 1 (Roller et al , 2021) and its pre-training counterpart Reddit 2.7B. 我々は、BlenderBot 1 (Roller et al , 2021) や、トレーニング済みのReddit 2.7Bなど、既存のオープンソースの対話モデルと比較する。 0.78
We also compare against the fine-tuned R2C2 BlenderBot, a 2.7B parameter BlenderBot-like model trained by Shuster et al (2022). また、Shusterらによって訓練された2.7BパラメータであるR2C2 BlenderBotと比較した。 0.71
We report Perplexity and Unigram F1 (UF1) overlap, following the metrics of the ConvAI2 competition (Dinan et al , 2020b). convai2コンペティション(dinan et al , 2020b)の結果,パープレキシティと unigram f1 (uf1) の重なりが報告された。
訳抜け防止モード: Perplexity と Unigram F1 (UF1 ) の重複を報告する。 ConvAI2コンペティションのメトリクスに従う(Dinan et al, 2020b )。
0.68
To control for different tokenization in each of the models, we normalize all perplexities to be in the space of the GPT-2 tokenizer (Radford et al , 2019). 各モデルの異なるトークン化を制御するため、GPT-2トークン化器(Radford et al , 2019)の空間におけるすべての難易度を正規化する。 0.72
We also note which models are supervised with respect to these dialogue tasks and which are unsupervised. また、これらの対話タスクに関して、どのモデルが教師なしかを注意する。 0.49
For OPT-175B, all generations are performed using greedy decoding up to a maximum of 32 tokens. OPT-175Bでは、すべての世代が最大32個のトークンのgreedyデコードを使用して実行される。 0.63
We do not attempt to prompt the model at all except for alternating “Person 1:” and “Person 2:” lines of dialogue. 我々は、"Person 1:" と "Person 2:" の対話行の交互化を除いて、モデルを全く促そうとしない。 0.72
The remaining models use the generation parameters found in BlenderBot 1. 残りのモデルは、BlenderBot 1.0で見られる生成パラメータを使用する。 0.68
Results are shown in Table 2. 結果は表2に示されます。 0.82
We see that OPT-175B significantly outperforms the alsounsupervised Reddit 2.7B model on all tasks, and OPT-175Bは、すべてのタスクにおいて、教師なしのReddit 2.7Bモデルよりも大幅に優れています。 0.42
performs competitively with the fully supervised BlenderBot 1 model, especially in the ConvAI2 dataset. 完全に教師されたBlenderBot 1モデル、特にConvAI2データセットと競合する。 0.71
On the Wizard-of-Internet dataset, which is fully unsupervised for all models, we see that OPT-175B obtains the lowest perplexity but still has lower UF1 than the models with Wizard-ofWikipedia supervision. すべてのモデルで完全に教師されていないWizard-of-Internetデータセットでは、OPT-175Bは最も難易度が低いが、Wizard-of WikipediaによるモデルよりもUF1が低い。 0.61
We were somewhat surprised that the evaluations of the unsupervised OPT-175B model were as competitive as BlenderBot 1 on the ConvAI2 dataset. 我々は、教師なしOPT-175Bモデルの評価が、ConvAI2データセット上のBlenderBot 1と同等の競争力があることに驚いた。 0.62
This may indicate leakage of the ConvAI2 dataset into the general pre-training corpus or even into the validation data as evaluated in Table 2. これは、ConvAI2データセットの一般的な事前トレーニングコーパスへのリーク、あるいはテーブル2で評価された検証データへのリークを示す可能性がある。 0.55
To address concerns of leakage, we searched our pre-training corpus for the first conversation in the ConvAI2 dataset, but we did not find any overlap. 漏洩の懸念に対処するため、私たちはConvAI2データセットの最初の会話のために事前学習したコーパスを検索したが、オーバーラップは見つからなかった。 0.60
We additionally evaluated OPT-175B on the ConvAI2 hidden test set, which has never been publicly released, and achieved 10.7 ppl and .185 UF1, matching the performance of the validation set. 我々はまた、まだ公開されていないConvAI2シークレットテストセット上でOPT-175Bを評価し、10.7 ppl と .185 UF1 を達成した。 0.72
Furthermore, we evaluated OPT-175B on a subset of the ConvAI2like MultiSessionChat (MSC) dataset (Xu et al , 2021b) and obtained a perplexity of 9.7 and UF1 of .177, indicating the model is generalizing well across multiple PersonaChat-like datasets. さらに, ConvAI2like MultiSessionChat (MSC) データセットのサブセット (Xu et al , 2021b) を用いて OPT-175B を評価し, パープレクティリティが .177 の 9.7 と UF1 の値を得た。 0.72
Since both MSC and WoI datasets were released after the CommonCrawl snapshot used in pre-training corpus, there is minimal risk of leakage. MSCとWoIのデータセットは、トレーニング前コーパスで使用されるCommonCrawlスナップショット後にリリースされたため、リークのリスクは最小限である。
訳抜け防止モード: MSCとWoIのデータセットは、トレーニング前コーパスで使用されるCommonCrawlスナップショット後にリリースされた。 漏れのリスクは最小限です
0.59
We conclude that OPT-175B has a strong ability to maintain a consistent persona across conversations, a behavior also highlighted in LaMDA (Thoppilan et al , 2022). 我々は,OPT-175Bは会話を通して一貫したペルソナを維持する能力が強く,LaMDA(Thoppilan et al , 2022。 0.65
4 Bias & Toxicity Evaluations 4 バイアスと毒性評価 0.71
To understand the potential harm of OPT-175B, we evaluate a series of benchmarks related to hate speech detection, stereotype awareness, and toxic content generation. opt-175bの潜在的な害を理解するために,ヘイトスピーチの検出,ステレオタイプ認識,有害コンテンツ生成に関する一連のベンチマークを評価する。 0.62
While there may be shortcomings in these benchmarks (Blodgett et al , 2021; Jacobs and Wallach, 2021), these measurements provide a first step towards understanding the limitations of OPT-175B. これらのベンチマークには欠点がある(Blodgett et al , 2021; Jacobs and Wallach, 2021)が、これらの測定はOPT-175Bの限界を理解するための第一歩となる。 0.72
We compare primarily against GPT-3 Davinci, as these benchmarks were not yet available to be included in Brown et al (2020). これらのベンチマークは、Brown et al (2020) に含まれていないため、主に GPT-3 Davinci と比較する。 0.69
4.1 Hate Speech Detection Using the ETHOS dataset provided in Mollas et al (2020) and instrumented by Chiu and Alexander (2021), we measure the ability of OPT-175B to identify whether or not certain English statements are racist or sexist (or neither). 4.1 モーラスらによるETHOSデータセットを用いたヘイトスピーチ検出(2020年)で, チウとアレクサンドル(2021年)により, 特定の英文が人種差別的であるか否か(あるいはその両方)を判定するOPT-175Bの能力を測定する。 0.70
In the zero-, one-, zero (複数形 zeros) 0.57
英語(論文から抽出)日本語訳スコア
Perplexity (↓) Perplexity (複数形 Perplexities) 0.31
Unigram F1 (↑) Unigram (複数形 Unigrams) 0.72
Model Eval Reddit 2.7B Unsup. Model Eval Reddit 2.7B Unsup 0.44
BlenderBot 1 Sup. BlenderBot 1 Sup 0.31
R2C2 BlenderBot Sup. R2C2 BlenderBot Sup 0.38
OPT-175B Unsup. OPT-175B 残念です。 0.26
C2 WW ED BST WoI 18.0 18.9 10.2 14.7 14.6 10.5 12.0 10.8 C2 WWED BST WoI 18.0 18.9 10.2 14.7 14.6 10.5 12.0 10.8 0.22
21.0 12.5 12.4 13.3 21.0 12.5 12.4 13.3 0.23
11.6 9.0 9.1 10.3 11.6 9.0 9.1 10.3 0.23
17.4 11.9 11.7 12.1 17.4 11.9 11.7 12.1 0.23
C2 WW ED BST WoI .124 .126 .183 .154 .160 .205 .185 .147 C2 WWED BST WoI .124 .126 .183 .154 .160 .205 .185 .147 0.32
.133 .178 .186 .162 .133 .178 .186 .162 0.33
.133 .189 .198 .152 .133 .189 .198 .152 0.33
.135 .192 .197 .149 .135 .192 .197 .149 0.33
Table 2: Dialogue Evaluations. 表2: 対話の評価。 0.77
OPT-175B, in a fully unsupervised setting, performs competitively against fully supervised models. OPT-175Bは、完全に教師なしの環境で、完全に監督されたモデルと競合する。 0.46
Setup Zero-shot One-shot Few-shot (binary) Few-shot (multiclass) ゼロショットワンショットFewショット(バイナリ)Fewショット(複数クラス) 0.62
Davinci OPT-175B .667 .713 .759 .812 Davinci OPT-175B .667 .713 .759 .812 0.29
.628 .616 .354 .672 .628 .616 .354 .672 0.33
Table 3: Hate speech detection. 表3:ヘイトスピーチ検出。 0.54
F1 scores of detecting hate speech between Davinci and OPT-175B. F1はダヴィンチとOPT-175Bのヘイトスピーチを検出する。 0.57
OPT175B considerably outperforms Davinci in all settings. opt175bは、すべての設定でdavinciをかなり上回っている。 0.43
and few-shot binary cases, the model is presented with text and asked to consider whether the text is racist or sexist and provide a yes/no response. 数発のバイナリケースでは、モデルはテキストで示され、テキストが人種差別的か性差別的かを検討し、イエス/ノーの応答を提供する。 0.58
In the few-shot multiclass setting, the model is asked to provide a yes/no/neither response. 少数ショットのマルチクラス設定では、モデルはyes/no/nether応答を提供するように要求される。 0.61
Results are presented in Table 3. 結果は表3に示されます。 0.78
With all of our one-shot through few-shot configurations, OPT175B performs considerably better than Davinci. opt175bの動作はdavinciよりかなり優れています。 0.39
We speculate this occurs from two sources: (1) evaluating via the Davinci API may be bringing in safety control mechanisms beyond the original 175B GPT-3 model used in Brown et al (2020); and (2) the significant presence of unmoderated social media discussions in the pre-training dataset has provided additional inductive bias to aid in such classification tasks. 筆者らは,(1)Davinci APIによる評価は,Brown et al (2020)で使用されていた175B GPT-3モデルを超えて安全制御機構を導入している可能性,(2)事前学習データセットにおける未修正ソーシャルメディア議論の存在が,そのような分類作業を支援するための追加の帰納的バイアスを与えていることを推測した。 0.73
4.2 CrowS-Pairs Developed for masked language models, CrowSPairs (Nangia et al , 2020) is a crowdsourced benchmark aiming to measure intrasentence level biases in 9 categories: gender, religion, race/color, sexual orientation, age, nationality, disability, physical appearance, and socioeconomic status. 4.2 crows-pair developed for masked language models, crowspairs (nangia et al , 2020) は、性別、宗教、人種/色、性的指向、年齢、国籍、障害、身体的外観、社会経済的地位の9つのカテゴリにおける内性レベルのバイアスを測定することを目的としたクラウドソースのベンチマークである。
訳抜け防止モード: 4.2 CrowS - CrowSPairs (Nangia et al, 2020 )は、9つのカテゴリ(性別、宗教、人種/色)で文内レベルのバイアスを測定することを目的としたクラウドソースのベンチマークである。 性的指向 年齢 国籍 障害 容姿 社会経済的地位です
0.72
Each example consists of a pair of sentences representing a stereotype, or anti-stereotype, regarding a certain group, with the goal of measuring model preference towards stereotypical expressions. それぞれの例は、ステレオタイプまたは反ステレオタイプを表す一対の文からなり、ステレオタイプ表現に対するモデルの好みを測定することを目的としている。 0.73
Higher scores indicate higher bias exhibited by a model. より高いスコアは、モデルによって示されるより高いバイアスを示す。 0.58
Category Gender Religion Race/Color Sexual orientation Age Nationality Disability Physical appearance Socioeconomic status Overall カテゴリー 性別 人種/色 性的指向 年齢 国籍 障害 身体的外観 社会経済的地位 全体 0.80
GPT-3 OPT-175B 65.7 68.6 68.6 78.6 67.8 62.9 76.7 76.2 76.2 69.5 GPT-3 OPT-175B 65.7 68.6 68.6 78.6 67.8 62.9 76.7 76.2 76.2 69.5 0.20
62.6 73.3 64.7 76.2 64.4 61.6 76.7 74.6 73.8 67.2 62.6 73.3 64.7 76.2 64.4 61.6 76.7 74.6 73.8 67.2 0.21
Table 4: CrowS-Pairs evaluation. 表4:カラスペアの評価。 0.66
Lower is better for all categories, indicating more fairness. 下位はすべてのカテゴリに適しており、より公平さを示している。 0.49
The OPT-175B model performs worse than Davinci in most categories. OPT-175Bモデルは、ほとんどのカテゴリでDavinciよりもパフォーマンスが悪い。 0.63
When compared with Davinci in Table 4, OPT175B appears to exhibit more stereotypical biases in almost all categories except for religion. 表4のダヴィンチと比較すると、オプティコ175bは宗教を除くほぼ全てのカテゴリーにおいてよりステレオタイプ的なバイアスを示すようである。
訳抜け防止モード: 表4のDavinciと比較するとOPT175Bが出現する 宗教以外のあらゆるカテゴリーで よりステレオタイプな偏見を示します
0.80
Again, this is likely due to differences in training data; Nangia et al (2020) showed that Pushshift.io Reddit corpus has a higher incidence rate for stereotypes and discriminatory text than other corpora (e g Wikipedia). Nangia et al (2020)は、Pushshift.io Redditのコーパスは他のコーパス(例えばWikipedia)よりもステレオタイプや差別テキストの頻度が高いことを示した。
訳抜け防止モード: これはおそらくトレーニングデータの違いによるものだろう Nangia et al (2020 ) は、Pushshift.io Reddit corpus は他の corpora (e g Wikipedia ) よりもステレオタイプや差別テキストの頻度が高いことを示した。
0.86
Given this is a primary data source for OPT-175B, the model may have learned more discriminatory associations, which directly impacts its performance on CrowS-Pairs. これがOPT-175Bの主要なデータソースであることを考えると、このモデルはより差別的な関連性を学び、CrowS-Pairsのパフォーマンスに直接影響する可能性がある。
訳抜け防止モード: これはOPT-175Bの主要なデータソースである。 モデルはより差別的な関連性を学び、CrowS - Pairsのパフォーマンスに直接影響します。
0.65
4.3 StereoSet Following Lieber et al (2021) and Artetxe et al (2021), we use StereoSet (Nadeem et al , 2021) to measure stereotypical bias across 4 categories: profession, gender, religion, and race. reber et al (2021) とartetxe et al (2021) に続く4.3ステレオセットでは、ステレオセット (nadeem et al, 2021) を使用して、職業、性別、宗教、人種の4つのカテゴリにわたるステレオタイプバイアスを測定する。
訳抜け防止モード: 4.3 StereoSet following Lieber et al (2021 ) and Artetxe et al (2021 ) 私たちはStereoSet(Nadeem et al, 2021)を使っています。 職業、性別、宗教、人種の4つのカテゴリーにまたがるステレオタイプバイアスを測定すること。
0.79
In addition to intrasentence measurement (similar to CrowSPairs), StereoSet includes measurement at the intersentence level to test a model’s ability to incorporate additional context. 空間内測定(カラスペアに似ている)に加えて、ステレオセットは、モデルの追加コンテキストを組み込む能力をテストするための間欠レベルの測定を含む。 0.71
To account for a potential trade-off between bias detection and language modeling capability, StereoSet includes two metrics: バイアス検出と言語モデリング能力の間の潜在的なトレードオフを考慮するため、ステレオセットには2つの指標が含まれる。 0.60
英語(論文から抽出)日本語訳スコア
Category Prof. Gend. カテゴリー 教授。 ジェンド 0.61
Reli. Race Overall Reli レース 総合 0.48
LMS (↑) SS (↓) ICAT (↑) LMS (↑) SS (↓) ICAT (↑) LMS (↑) SS (↓) ICAT (↑) LMS (↑) SS (↓) ICAT (↑) LMS (↑) SS (↓) ICAT (↑) LMS - SS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS - LMS。 0.23
Davinci OPT-175B 74.1 62.6 55.4 74.0 63.6 53.8 84.0 59.0 68.9 74.9 56.8 64.8 74.8 59.9 60.0 Davinci OPT-175B 74.1 62.6 55.4 74.0 63.6 53.8 84.0 59.0 68.9 74.9 56.8 64.8 74.8 59.9 60.0 0.21
78.4 63.4 57.5 75.6 66.5 50.6 80.8 59.0 66.3 77.0 57.4 65.7 77.6 60.8 60.8 78.4 63.4 57.5 75.6 66.5 50.6 80.8 59.0 66.3 77.0 57.4 65.7 77.6 60.8 60.8 0.20
Table 5: StereoSet Evaluations. 表5:ステレオセットの評価。 0.70
Davinci and OPT175B perform similarly across all evaluations. Davinci と OPT175B も同様に全ての評価で機能する。 0.62
Language Modeling Score (LMS) and Stereotype Score (SS), which are then combined to form the Idealized Context Association Test score (ICAT). 言語モデリングスコア(lms)とステレオタイプスコア(ss)は結合され、理想化された文脈関連テストスコア(icat)を形成する。 0.67
Unlike Lieber et al (2021), we normalize scores by token count, rather than character count, which they report improves metrics for several models. Lieber et al (2021)とは異なり、文字数ではなくトークン数でスコアを正規化します。
訳抜け防止モード: Lieber et al (2021 )とは異なり、文字数ではなくトークン数でスコアを正規化する。 レポートによると、いくつかのモデルのメトリクスが改善されている。
0.54
Results are shown in Table 5. 結果は表5に示されています。 0.67
We see that Davinci and OPT-175B exhibit similar scores on aggregate (overall ICAT is very close between the two). Davinci と OPT-175B は、合計でも同様のスコアを示す(すべてのICAT は両者に非常に近い)。 0.60
In particular, Davinci outperforms in the areas of profession and race, while OPT-175B outperforms in the areas of Gender and Religion. 特に、ダヴィンチは職業と人種の分野で、OPT-175Bはジェンダーと宗教の分野で、より優れています。 0.60
OPT175B performs better across the board on the SS metric, while Davinci generally outperforms on the LMS metric. opt175b は ss メトリックのボード全体でパフォーマンスが良く、一方 davinci は lms メトリックよりも優れている。 0.65
4.4 RealToxicityPrompts We evaluate the tendency of OPT-175B to respond with toxic language via the RealToxicityPrompts (Gehman et al , 2020) dataset. 4.4 realtoxicityprompts (gehman et al , 2020) データセットを用いて opt-175b が毒性言語に反応する傾向を評価した。 0.73
Following PaLM (Chowdhery et al , 2022), we sample 25 generations of 20 tokens using nucleus sampling (Holtzman et al , 2020) (p = 0.9) for each of 10, 000 randomly sampled prompts from RTP, and report mean toxicity probabilities of the continuations, stratified across bucketed toxicities of the original prompts. PaLM (Chowdhery et al , 2022) に続いて, RTPから10, 000個のランダムサンプリングプロンプトのそれぞれに対して, 原子核サンプリング (Holtzman et al , 2020) (p = 0.9) を用いて25世代にわたって20個のトークンを採取し, その連続の毒性確率を報告した。 0.84
For comparison, we report bucketed toxicity rates from Davinci and PaLM. 比較のために,DavinciおよびPaLMのバケット毒性率について報告する。 0.68
Results are shown in Figure 5. 結果は図5に示します。 0.85
Overall, we see Figure 5: RealToxicityPompts. 全体的に見て 図5: RealToxicity Pompts。 0.69
OPT-175B is more likely to generate toxic responses than either Davinci or PaLM. OPT-175Bは、DavinciやPaLMよりも毒性を持つ。 0.71
Consistent with prior work, toxicity rates increase as prompt toxicity increases. 先行研究と一致して、毒性は迅速に毒性が増加するにつれて増加する。 0.53
that OPT-175B has a higher toxicity rate than either PaLM or Davinci. OPT-175BはPaLMやDavinciよりも毒性が高い。 0.74
We also observe that all 3 models have increased likelihood of generating toxic continuations as the toxicity of the prompt increases, which is consistent with the observations of Chowdhery et al (2022). また,いずれのモデルも,早急に毒性が増すにつれて毒性持続性が上昇する可能性が高く,chowdhery et al (2022) の観察と一致している。 0.73
As with our experiments in hate speech detection, we suspect the inclusion of unmoderated social media texts in the pre-training corpus raises model familiarity with, and therefore propensity to generate and detect, toxic text. ヘイトスピーチ検出実験と同様に、事前学習コーパスに未修正のソーシャルメディアテキストが組み込まれていることは、モデルに親しみやすく、従って有害なテキストを生成・検出する確率を高める。 0.58
This strong awareness of toxic language may or may not be desirable depending on the specific requirements of downstream applications. 有害な言語に対するこの強い認識は、下流アプリケーションの特定の要件によって、望ましいものかもしれないし、望ましくないものかもしれない。 0.45
Future applications of OPT-175B should consider this aspect of the model, and take additional mitigations, or avoid usage entirely as appropriate. OPT-175Bの今後の応用は、モデルのこの側面を考慮し、追加の緩和、あるいは完全に適切な使用を避けるべきである。 0.68
4.5 Dialogue Safety Evaluations Finally, we compare OPT-175B on two Dialogue Safety evaluations. 4.5 対話安全評価 最後に, 2 つの対話安全評価について opt-175b を比較した。 0.56
The first, SaferDialogues (Ung et al , 2021), measures the ability to recover from explicit safety failures, usually in the form of apologizing or recognizing its mistake. 第一に SaferDialogues (Ung et al , 2021) は、通常、その間違いを謝罪または認識する形で、明確な安全障害から回復する能力を測定する。 0.73
The second, the Safety Bench Unit Tests (Dinan et al , 2021), measures how unsafe a model’s response is, stratified across 4 levels of topic sensitivity: Safe, Realistic, Unsafe, and Adversarial. 2つ目は、セーフ・ベンチ・ユニット・テスト(Dinan et al , 2021)で、モデルの応答がいかに安全でないかを測定し、セーフ、リアル、アンセーフ、アドバイザリアルの4つのレベルに分けられる。 0.67
As with the other dialogue evaluations (Section 3.2), we compare to several existing open source dialogue models. 他のダイアログ評価(Section 3.2)と同様に、既存の対話モデルと比較する。 0.69
Results for both experiments are shown in Table 6. 両実験の結果は表6に示されている。 0.80
We observe that OPT-175B has similar performance as the Reddit 2.7B model across both SaferDialogues and the Unit Tests, with OPT-175B performing marginally better in the Safe and Adversarial settings. opt-175bは安全なダイアローグとユニットテストの両方でreddit 2.7bモデルと同等の性能を持ち、op-175bは安全かつ敵対的な設定でわずかに優れていることが観察された。 0.54
Consistent with Roller et al (2021) roller (複数形 rollers) 0.33
0.00.10.20.30.40.50. 60.70.80.91.0Prompt Toxicity Probability (Binned)0.000.050.10 0.150.200.250.300.35 0.400.45Toxicity Probability of Continuation (TPC)Toxicity Probability of Prompt (TPP)OPT 175BDavinciPaLM 0.00.10.30.30.50.60. 70.80.91.0prompt 毒性確率 (binned)0.000.050.10 0.150.250.300.300.35 0.400.45 継続中毒確率 (tpc) プロンプト (tpp)opt 175bdavincipalm 毒性確率 0.35
英語(論文から抽出)日本語訳スコア
Model Reddit 2.7B BlenderBot 1 R2C2 BlenderBot OPT-175B Model Reddit 2.7B BlenderBot 1 R2C2 BlenderBot OPT-175B 0.29
Safe. Dia. F1 PPL .140 16.2 .161 12.4 13.8 .160 .141 14.7 安全だ ディア F1 PPL .140 16.2 .161 12.4 13.8 .160 .141 14.7 0.41
Unit Tests (↓) Un .450 .250 .289 .567 ユニット・テスト .450 .250 .289 .567 0.81
Re .261 .150 .133 .261 Re .261 .150 .133 .261 0.35
Sa .300 .028 .022 .033 Sa .300 .028 .022 .033 0.35
Ad .439 .194 .222 .283 ad .439 .194 .222 .283 0.34
Table 6: Dialogue Responsible AI evaluations. 表6: 対話対応AI評価。 0.64
OPT175B is roughly on par with the Reddit 2.7B model, but performs worse in the Unsafe setting. OPT175BはReddit 2.7Bとほぼ同等だが、Unsafe設定では性能が悪くなる。 0.74
and Xu et al (2020), we find that the models finetuned on curated dialogue datasets (BlenderBot 1, R2C2) have overall lower toxicity. そして、Xu et al (2020) では、培養した対話データセット(BlenderBot 1, R2C2)に微調整されたモデルが、全体的な毒性を低下させることがわかった。
訳抜け防止モード: Xuら(2020)は 計算済みの対話データセット(BlenderBot 1, R2C2 )に微調整されたモデルは、全体的な毒性が低い。
0.73
We conclude that future experimentation of OPT-175B for dialogue should contain explicit fine-tuning on curated datasets in order to improve the safety profile. 対話用op-175bの今後の実験は,安全プロファイルを改善するために,キュレートされたデータセットの微調整を明示的に含むべきであると結論づけた。 0.55
5 Limitations In Sections 3.1 and 4, we carried out extensive evaluation of all released models at varying scales. 5節の限界 3.1 と 4 では,様々なスケールで全モデルについて広範囲に評価を行った。 0.75
We saw parity in performance for standard evaluation datasets used in the GPT-3 models. GPT-3モデルにおける標準評価データセットの性能は同等であった。 0.76
Moreover, we performed safety, bias, and inclusion evaluations, again seeing largely comparable performance with some variations in toxicity and hate speech detection. さらに, 安全性, バイアス, 包含性の評価を行い, 毒性, ヘイトスピーチ検出の多種多様さと同等の性能を示した。 0.69
However, such evaluations may not fully characterize the complete limitations of these models. しかし、そのような評価はこれらのモデルの完全な限界を完全に特徴づけるものではない。 0.57
In general, we qualitatively observe that OPT-175B suffers from the same limitations noted in other LLMs (Brown et al , 2020; Lieber et al , 2021; Thoppilan et al , 2022; Rae et al , 2021; Smith et al , 2022; Chowdhery et al , 2022; Bender et al , 2021). 一般に、op-175bは他のllmと同じ制限(brown et al , 2020; lieber et al , 2021; thoppilan et al , 2022; rae et al , 2021; smith et al , 2022; chowdhery et al , 2022; bender et al , 2021)を被っていることを定性的に観察する。 0.83
In particular, we found OPT-175B does not work well with declarative instructions or point-blank interrogatives. 特に、OPT-175Bは宣言的指示や点ブランク問合せではうまく機能しないことがわかった。 0.56
Prompting with such instructions tends to produce a simulation of a dialogue beginning with such an instruction, rather than an execution of the instruction. このような指示を促すことは、指示の実行ではなく、そのような指示で始まる対話のシミュレーションを作成する傾向がある。 0.76
Future work into instruction learning, in the vein of InstructGPT (Ouyang et al , 2022), may alleviate these limitations. 今後のインストラクションGPT(Ouyang et al , 2022)の分野における指導学習への取り組みは、これらの制限を緩和する可能性がある。
訳抜け防止モード: インストラクションGPT(Ouyang et al, 2022)における指導学習への取り組み これらの制限を緩和できるかもしれません
0.75
OPT-175B also tends to be repetitive and can easily get stuck in a loop. OPT-175Bは繰り返しであり、ループで簡単に立ち往生する傾向がある。 0.74
While sampling can reduce the incidence rate of repetitive behavior (Holtzman et al , 2020), we anecdotally found it did not eliminate it entirely when only one generation is sampled. サンプリングは反復行動の発生率を減少させるが(holtzman et al , 2020)、一世代のみをサンプリングした場合、完全に排除できないことが報告されている。 0.71
Future work may wish to incorporate more modern strategies for reducing repetition and improving diversity, such as unlikelihood training (Welleck et al , 2020) or best-first decoding (Meister et al , 2020). 今後の取り組みは、反復を減らし多様性を向上させるためのより現代的な戦略(Welleck et al , 2020)やベストファーストの復号化(Meister et al , 2020)を取り入れたいかもしれない。 0.66
Similar to other LLMs, OPT-175B can produce factually incorrect statements (Adiwardana et al , 2020; Brown et al , 2020; Roller et al , 2021; Rae et al , 2021; Chowdhery et al , 2022; Thoppilan et al , 2022). 他の LLM と同様に、OPT-175B は事実的に誤った文を生成することができる(Adiwardana et al , 2020; Brown et al , 2020; Roller et al , 2021; Rae et al , 2021; Chowdhery et al , 2022; Thoppilan et al , 2022)。 0.89
This can be particularly harmful in applications where information accuracy is critical, such as healthcare and scientific discovery (Weidinger et al , 2021b). これは、医療や科学的発見(Weidinger et al , 2021b)など、情報精度が重要となるアプリケーションでは特に有害である。 0.80
Recently, several efforts have reported that retrieval-augmented models can improve factual correctness of LLMs (Lewis et al , 2020; Komeili et al , 2021; Thoppilan et al , 2022; Borgeaud et al , 2021; Shuster et al , 2022; Nakano et al , 2021). 近年、検索強化モデルによりLLMの事実的正しさが向上することが報告されている(Lewis et al , 2020; Komeili et al , 2021; Thoppilan et al , 2022; Borgeaud et al , 2021; Shuster et al , 2022; Nakano et al , 2021)。 0.84
We believe OPT-175B will also benefit from retrieval-augmentati on in future iterations. OPT-175Bは今後のイテレーションにおける検索強化の恩恵を受けるだろう。 0.55
As shown in Section 4, we also find OPT-175B has a high propensity to generate toxic language and reinforce harmful stereotypes, even when provided with a relatively innocuous prompt (Gehman et al , 2020), and adversarial prompts are trivial to find (Dinan et al , 2021). 第4節に示すように、OPT-175Bは、比較的無害なプロンプト(Gehman et al , 2020)が与えられたとしても、有害な言語を生成し、有害なステレオタイプを補強する確率が高い(Dinan et al , 2021)。 0.63
There has been a great deal of work on mitigations for toxicity and biases (Dathathri et al , 2019; Dinan et al , 2019a; Sheng et al , 2019; Dinan et al , 2020a; Liu et al , 2019a; Krause et al , 2020; Xu et al , 2020; Liang et al , 2021; Dinan et al , 2021; Xu et al , 2021a; Dhamala et al , 2021; Schick et al , 2021; Ouyang et al , 2022). 毒性とバイアスの緩和について多くの研究がなされてきた(dathathri et al , 2019; dinan et al , 2019a; sheng et al , 2019; dinan et al , 2020a; liu et al , 2019a; krause et al , 2020; xu et al , 2020; liang et al , 2021; dinan et al , 2021; xu et al , 2021a; dhamala et al , 2021; schick et al , 2021; ouyang et al , 2022)。 0.38
Depending on downstream applications, future uses of OPT-175B may need to employ these or novel mitigation approaches, especially before any real world deployment. 下流のアプリケーションによっては、OPT-175Bの今後の利用は、特に現実世界の展開の前に、これらまたは新しい緩和アプローチを採用する必要があるかもしれない。
訳抜け防止モード: 下流のアプリケーションによっては、OPT-175Bの今後の利用が必要かもしれない 新たな緩和アプローチを採用し 特に実世界の展開の前に
0.67
Given our primary goal as a replication of GPT-3, we choose not to apply these mitigations in this first release. GPT-3の複製としての私たちの第一の目的は、この最初のリリースでこれらの緩和を適用しないことです。 0.61
In summary, we still believe this technology is premature for commercial deployment. 要するに、この技術は商用展開には時期尚早だと考えています。 0.59
Despite including data sheets and model cards, we believe more scrutiny should be afforded to the training data with additional data characterization and selection criteria in order to use data responsibly. データシートやモデルカードは含まれていますが、データに責任を負うために、データの特徴付けと選択基準を付加したトレーニングデータにもっと精査するべきだと考えています。 0.58
The current practice is to feed the model with as much data as possible and minimal selection within these datasets. 現在のプラクティスは、これらのデータセット内で可能な限り多くのデータと最小限の選択をモデルに与えることです。 0.69
Despite having comprehensive evaluations, we would ideally have more streamlined and consistent evaluation setups to ensure replicability and reproducibility of evaluation scenarios. 総合的な評価は行なっていますが、評価シナリオの再現性と再現性を確保するため、より合理的で一貫した評価設定が理想的です。 0.53
Differences in prompting styles and number of shots for in-context learning could create variations that lead to different results. 文脈内学習のスタイルとショット数の違いは、異なる結果をもたらすバリエーションを生み出す可能性がある。 0.77
We hope that the public release of the OPT models will enable many more researchers to work on these important issues. OPTモデルの公開リリースによって、より多くの研究者がこれらの重要な問題に取り組むことができることを期待しています。 0.62
英語(論文から抽出)日本語訳スコア
6 Considerations for Release リリースに関する6つの考察 0.60
Following the recommendations for individual researchers generated by the Partnership for AI,7 along with the governance guidance outlined by NIST,8 we are disclosing all of the details involved in training OPT-175B through our logbook,9 our code, and providing researchers access to model weights for OPT-175B, along with a suite of smaller baselines mirroring the setup for OPT175B. NIST,8が概説したガバナンスガイダンスとともに、AIのパートナシップによって生成された個々の研究者への勧告に続いて、私たちは、私たちのログブック、9のコードを通じて、OPT-175Bのトレーニングに関わる詳細をすべて公開しています。 0.71
We aim to be fully accountable for the development lifecycle of OPT-175B, and only through increasing transparency around LLM development can we start understanding the limitations and risks of LLMs before broader deployment occurs. 我々は、OPT-175Bの開発ライフサイクルに完全に責任を負うことを目指しており、LCM開発に関する透明性を高めることで、より広範な展開が行われる前にLSMの限界やリスクを理解し始めることができる。
訳抜け防止モード: 我々はOPT-175Bの開発ライフサイクルに完全に責任を負うことを目指している。 LLM開発に関する透明性を高めることで LLMの限界とリスクを理解する より広範囲に展開する前に
0.71
By sharing a detailed account of our day-to-day training process, we disclose not only how much compute was used to train the current version of OPT-175B, but also the human overhead required when underlying infrastructure or the training process itself becomes unstable at scale. 日々のトレーニングプロセスの詳細を公開することによって、現在のPT-175Bのトレーニングにどれだけの計算が使われたかだけでなく、基盤となるインフラストラクチャやトレーニングプロセス自体が大規模に不安定になった場合に必要となる人的オーバーヘッドも明らかにします。
訳抜け防止モード: 日々のトレーニングプロセスに関する詳細な説明を共有することで。 計算能力だけでなく OPT-175Bの現行バージョンの訓練に使用された。 人間のオーバーヘッドは 基盤となるインフラは 訓練プロセス自体が 大規模に不安定になるのです
0.72
These details are generally omitted from previous publications, likely due to the inability to fully ablate changes made mid-flight (without drastically increasing the compute budget). これらの詳細は、飛行中の変更を完全に省略できないため(計算予算を大幅に増加させることなく)、以前の出版物から省略されることが多い。 0.61
We hope that by revealing how certain ad-hoc design decisions were made, we can improve upon these practices in the future, and collectively increase the experimental robustness in developing models at this scale. アドホックな設計決定がいかにあるかを明らかにすることで、これらのプラクティスを将来的に改善し、この規模でモデルを開発する上での実験的堅牢性を高めることができると期待しています。 0.62
Outside of these notes, the metaseq codebase itself is the final source of truth in many of our implementation details. これらのメモ以外は、metaseqコードベース自体が、実装の詳細の多くにおいて、最終的な真理の源です。 0.58
By releasing our development codebase, we aim to shed light on any implementation detail that may have been omitted from being explicitly enumerated in this paper, as it is either considered a detail of standard practice in the field, or is simply a detail we failed to account for. 開発コードベースのリリースによって、この分野における標準プラクティスの詳細と見なされるか、単に説明に失敗した詳細であるとして、この論文で明示的に列挙されるのを省略した実装の詳細を明確化することを目指しています。 0.73
This current codebase is also the only known open-source implementation of training a decoderonly transformer that is ≥175B parameters without the use of pipeline paralellism on NVIDIA GPUs. このコードベースは、NVIDIA GPUにパイプラインパラレリズムを使わずに175B以上のパラメータを持つデコーダリートランスフォーマーをトレーニングする唯一のオープンソース実装でもある。 0.70
To enable experimentation at 175B scale, we are providing researchers with direct access to the parameters of OPT-175B. 175B規模の実験を可能にするため,OPT-175Bのパラメータへの直接アクセスを提供する。 0.81
The reasoning here is twofold: enable Responsible AI research into LLMs while simultaneously reducing the environmental ここでの理由は2つある:環境を同時に減らしながらLLMに関する責任あるAI研究を可能にする 0.61
7https://partnership onai.org/paper/ 7https://partnership onai.org/paper/ 0.20
responsible-publicat ion-recommendations/ 8https://nvlpubs.nis t.gov/nistpubs/ SpecialPublications/ NIST.SP.1270.pdf 責任-公告-勧告/ 8https://nvlpubs.nis t.gov/nistpubs/ SpecialPublications/ NIST.SP.1270.pdf 0.17
9https://github.com/ facebookresearch/ 9https://github.com/ facebookresearch/ 0.20
metaseq/blob/main/pr ojects/OPT/ chronicles/OPT175B_L ogbook.pdf metaseq/blob/main/pr ojects/OPT/ chronicles/OPT175B_L ogbook.pdf 0.09
impact of pursuing research at this scale. この規模で研究を追求する影響です 0.76
There is a growing body of work detailing ethical and social risks from deploying language models with emergent capabilities at scale (Weidinger et al , 2021a; Bommasani et al , 2021; Dinan et al , 2021; Kenton et al , 2021). Weidinger et al , 2021a; Bommasani et al , 2021; Dinan et al , 2021; Kenton et al , 2021)。 0.15
By limiting access to OPT-175B to the research community with a non-commercial license, we aim to focus development efforts on quantifying the limitations of the LLMs first, before broader commercial deployment occurs. OPT-175Bへのアクセスを非商用ライセンスで研究コミュニティに限定することにより、より広範な商用展開が行われる前に、まずLCMの限界を定量化することに注力する。 0.68
Furthermore, there exists significant compute and carbon cost to reproduce models of this size. さらに、このサイズのモデルを再現するための計算と炭素のコストがかなり高い。 0.73
While OPT-175B was developed with an estimated carbon emissions footprint (CO2eq) of 75 tons,10 GPT-3 was estimated to use 500 tons (Patterson et al , 2021), while Gopher required 380 tons (Rae et al , 2021). opt-175b は炭素排出量75トン (co2eq) で開発され、gpt-3 は500トン (patterson et al , 2021)、gopher は380トン (rae et al , 2021) と推定された。 0.72
These estimates are not universally reported, and the accounting methodologies for these calculations are also not standardized. これらの推定は普遍的に報告されておらず、これらの計算の会計手法も標準化されていない。 0.62
In addition, model training is only one component of the overall carbon footprint of AI systems; we must also consider experimentation and eventual downstream inference cost, all of which contribute to the growing energy footprint of creating large-scale models (Wu et al , 2022). さらに、モデルトレーニングは、AIシステム全体の炭素フットプリントの1つの構成要素であるだけでなく、実験と最終的な下流推論コストも考慮する必要があります。
訳抜け防止モード: さらに、モデルトレーニングはAIシステム全体の炭素フットプリントの1つの構成要素にすぎない 実験と最終的な下流推論コストも考慮しなければなりません。 これらはすべて、大規模モデル(Wu et al, 2022)を作成する際のエネルギーフットプリントの増大に寄与します。
0.67
By releasing our logbook, we hope to highlight the gap between a theoretical carbon cost estimate that assumes no hardware failures or training instabilities, versus one that aims to include the entire LLM development lifecycle. 当社のログブックをリリースすることによって、ハードウェアの障害やトレーニングの不安定性を想定しない理論的なカーボンコスト見積と、LCM開発ライフサイクル全体を含めることを目標とするものとのギャップを浮き彫りにしたいと考えています。 0.54
We need to understand the manufacturing (or embodied) carbon of these systems (Gupta et al , 2021) as they grow increasingly more complex, and we hope that our paper can help future work in defining additional factors to consider when measuring the impact of scale on the environment. 私たちは、これらのシステム(gupta et al, 2021)の製造(または具体化)の炭素がますます複雑になるにつれて理解する必要がある。
訳抜け防止モード: より複雑に成長するにつれて、これらのシステム(Gupta et al, 2021 )の製造(または体化)炭素を理解する必要がある。 私たちの論文が 今後は、環境に対するスケールの影響を測定する際に考慮すべき追加要因を定義する。
0.82
Similarly, by producing a set of baselines across a wide range of scales, we hope to enable the broader research community to study the impact and limitations of these models with respect to scale alone. 同様に、幅広いスケールにわたって一連のベースラインを作成することによって、より広い研究コミュニティが、スケール単独でこれらのモデルの影響と制限を研究できることを期待しています。 0.80
As reported in Hoffmann et al (2022), many of these LLMs may have been under-trained as a function of the amount of training data used, which implies that incorporating more data and continuing to train these baseline models may continue to improve performance. hoffmann et al (2022) で報告されているように、これらのllmの多くは、使用されるトレーニングデータ量の関数として過度に訓練された可能性がある。 0.50
There is also evidence that step-function changes in capabilities may occur at a scale that is much smaller than 175B (Wei et al , 2021), indicating a need to examine a wider range of scales for different research applications. また、175B (Wei et al , 2021) よりもはるかに小さいスケールでステップ関数の変化が起こる可能性があり、異なる研究応用のための幅広いスケールを調べる必要があることを示す証拠もある。 0.79
10With ablations, baselines and downtime, our own esti- 10 アブレーション,ベースライン,ダウンタイム,私たち独自のesti- 0.64
mates of total cost is roughly 2× higher. 総コストの合計はおよそ2倍である。 0.70
英語(論文から抽出)日本語訳スコア
7 Related Work Since the publication of the Transformer architecture (Vaswani et al , 2017) and BERT (Devlin et al , 2019), the field of NLP has experienced a massive shift towards the use of LLMs with self-supervised pre-training. 関連7件 Transformer アーキテクチャ (Vaswani et al , 2017) と BERT (Devlin et al , 2019) の出版以来、NLP の分野は自己監督型事前学習による LLM の使用に向けて大きな変化を経験してきた。 0.71
Multiple masked langauge models, including T5 (Raffel et al , 2020) and MegatronLM (Shoeybi et al , 2019), have shown consistent improvements through scale. T5(Raffel et al , 2020)やMegatronLM(Shoeybi et al , 2019)を含む複数のマスク付きランガウジュモデルでは、スケールによる一貫した改善が示されている。 0.76
These scaling gains come not only from growing the total number of parameters in the models, but also the amount and quality of pre-training data (Liu et al , 2019b; Hoffmann et al , 2022). これらのスケーリングの増加は、モデル内のパラメータの総数の増加だけでなく、事前トレーニングデータ(Liu et al , 2019b; Hoffmann et al , 2022)の量と品質の増加による。 0.83
Auto-regressive language models (Mikolov et al , 2009) have seen the largest growth in model size, from 117M parameters (Radford et al , 2018) to over 500B parameters (Smith et al , 2022; Chowdhery et al , 2022). 自己回帰型言語モデル (Mikolov et al , 2009) は、1700万のパラメータ (Radford et al , 2018) から500B以上のパラメータ (Smith et al , 2022; Chowdhery et al , 2022) まで、モデルサイズが最大の成長を遂げた。 0.87
The resulting massive improvement in generative fluency and quality was first characterized in GPT-2 (Radford et al , 2019) and further improved with GPT-3 (Brown et al , 2020) and later models. GPT-2 (Radford et al , 2019) と GPT-3 (Brown et al , 2020) とその後のモデルでさらに改良された。
訳抜け防止モード: その結果, GPT-2(Radford et al, 2019)では, 発生頻度と品質が大幅に向上した。 GPT-3(Brown et al, 2020)でさらに改善された。 後のモデルです
0.66
Although a variety of very large (over 100B parameters) generative models have now been trained (Lieber et al , 2021; Rae et al , 2021; Thoppilan et al , 2022; Smith et al , 2022; Chowdhery et al , 2022), they are all closed source and accessible only internally or via paid API services. Lieber et al , 2021; Rae et al , 2021; Thoppilan et al , 2022; Smith et al , 2022; Chowdhery et al , 2022) は、現在、非常に大きな(100B以上のパラメータ)生成モデルが訓練されているが、すべてクローズドソースであり、内部または有償APIサービスを通じてのみアクセス可能である。 0.89
There are a few notable efforts towards open sourcing LLMs from non-profit research organizations including EleutherAI (Black et al , 2022) and BigScience.11 EleutherAI (Black et al , 2022) や BigScience.11 など,非営利団体によるLDMのオープンソース化に向けた注目すべき取り組みがいくつかある。 0.58
These models differ from the OPT models in pre-training data, target languages and model scale, making it possible for the community to compare different pre-training strategies. これらのモデルは、事前学習データ、対象言語、モデルスケールのOPTモデルとは異なるため、コミュニティは異なる事前学習戦略を比較することができる。 0.74
Since Brown et al (2020), the primary evaluation criterion for LLMs has been prompt-based (Black et al , 2022; Rae et al , 2021; Chowdhery et al , 2022), as is also performed in this paper. Brown et al (2020) 以降, LLM の一次評価基準は, 同様に即時に基づく(Black et al , 2022; Rae et al , 2021; Chowdhery et al , 2022)。 0.67
This is largely due to the convenience of evaluating on many tasks without specialized task-specific fine-tuning. これは、タスク固有の微調整なしで多くのタスクを評価できるためである。 0.67
Prompting itself has a long history: cloze evaluations go back several decades (Chambers and Jurafsky, 2008; Mostafazadeh et al , 2016). クローズ評価は数十年(Chambers and Jurafsky, 2008; Mostafazadeh et al , 2016)まで遡る。
訳抜け防止モード: プロンプト自体には長い歴史があります : cloze の評価は数十年遡る ( chambers and jurafsky 2008; mostafazadeh et al, 2016)。
0.72
More recently, prompting or masked infilling has been used to probe models for knowledge (Petroni et al , 2019) or perform a variety of NLP tasks (Radford et al , 2019; Brown et al , 2020). 最近では、知識のためのモデルの調査(Petroni et al , 2019)や、さまざまなNLPタスク(Radford et al , 2019; Brown et al , 2020)に、プロンプトやマスクインフィルが使用されている。 0.77
There has also been work on eliciting prompting behavior in smaller models (Schick and Schütze, 2020; また、より小さなモデル(Schick and Schütze, 2020)で行動を促す作業も行われている。 0.77
11https://huggingfac e.co/bigscience/ 11https://huggingfac e.co/bigscience/ 0.20
tr11-176B-ml-logs/te nsorboard tr11-176B-ml-logs/te nsorboard 0.10
Gao et al , 2021b; Li and Liang, 2021; Lester et al , 2021; Scao and Rush, 2021), improving the flexibility of prompting (Shin et al , 2020), and understanding why and how prompting works (Liu et al , 2021; Min et al , 2022). Gao et al , 2021b; Li and Liang, 2021; Lester et al , 2021; Scao and Rush, 2021)、プロンプトの柔軟性の向上(Shin et al , 2020)、プロンプトの理由と方法の理解(Liu et al , 2021; Min et al , 2022)。 0.82
Recent efforts have shown gains by fine-tuning models to directly respond to instruction-style prompting (Wei et al , 2021; Min et al , 2021; Sanh et al , 2021; Ouyang et al , 2022). 近年の取り組みは、命令スタイルのプロンプトに直接反応する微調整モデルによって得られる(Wei et al , 2021; Min et al , 2021; Sanh et al , 2021; Ouyang et al , 2022)。 0.87
However, effective prompt engineering remains an open research challenge. しかし、効果的なプロンプトエンジニアリングは依然としてオープンリサーチの課題である。 0.54
Results vary significantly and unpredictably with the selection of the prompt (Lu et al , 2021), and models do not seem to understand the prompts as fully as we expect (Webson and Pavlick, 2021). 結果はプロンプト(lu et al, 2021)の選択によって大きく異なり、モデルではプロンプトが期待したほど完全には理解されていないように思われる(webson and pavlick, 2021)。 0.77
Furthermore, it is challenging to write prompts without a development set, which leads to questions about the extent to which we are actually achieving zero- or few-shot learning in practice (Perez et al , 2021). さらに、開発セットを使わずにプロンプトを書くことは困難であり、それが実際にゼロまたは少数ショットの学習を実際に達成しているかという疑問につながります(Perez et al , 2021)。 0.70
We do not attempt to address these concerns of prompting, and instead only aim to provide evaluation of OPT-175B in existing settings. 我々は、これらの懸念に対処しようとせず、既存の設定でOPT-175Bの評価を提供することを目標としている。
訳抜け防止モード: これらの懸念に対処しようとはしない。 その代わりに 既存の設定でOPT-175Bの評価を提供する。
0.72
However, we hope the full release of OPT-175B will enable others to better study these challenges in the future. しかし、OPT-175Bの完全なリリースによって、将来他の人たちがこれらの課題をよりよく研究できるようになることを願っています。
訳抜け防止モード: しかし、願う OPT-175Bの完全なリリースにより、他の人は将来これらの課題をよりよく研究できるようになる。
0.59
8 Conclusion In this technical report, we introduced OPT, a collection of auto-regressive language models ranging in size from 125M to 175B parameters. 8 結論 本技術報告では,125Mから175Bまでの大きさの自己回帰型言語モデルの集合であるOPTを導入した。 0.73
Our goal was to replicate the performance and sizes of the GPT-3 class of models, while also applying the latest best practices in data curation and training efficiency. 我々の目標は、GPT-3クラスのモデルの性能とサイズを再現し、データキュレーションとトレーニング効率の最新のベストプラクティスを適用することです。 0.74
We described training details, evaluated performance in a number of NLP and dialogue settings, and characterized behaviors with respect to bias, toxicity and hate speech. トレーニングの詳細を解説し,NLPおよび対話設定における性能評価を行い,偏見,毒性,ヘイトスピーチに対する行動の特徴を明らかにした。 0.77
We also described many other limitations the models have, and discussed a wide set of considerations for responsibly releasing the models. また、モデルが持つ他の多くの制限についても説明し、モデルをリリースする際の幅広い考慮事項について論じました。 0.64
We believe the entire AI community would benefit from working together to develop guidelines for responsible LLMs, and we hope that broad access to these types of models will increase the diversity of voices defining the ethical considerations of such technologies. aiコミュニティ全体が協力して責任あるllmのガイドラインを開発することで利益を得ると信じており、この種のモデルに広くアクセスすることで、そのような技術の倫理的考察を定義する声の多様性が増すことを望んでいる。
訳抜け防止モード: AIコミュニティ全体が協力して、責任あるLCMのためのガイドラインを開発することの恩恵を受けると思います。 このようなモデルへの幅広いアクセスが 声の多様性を増し このような技術の倫理的配慮を定義します
0.69
Acknowledgements We would like to thank Scott Jeschonek, Giri Anantharaman, Diego Sarina, Joaquin Colombo, Chris Bray, Stephen Roylance, Kalyan Saladi, Shubho Sengupta, and Brian O’Horo for helping to remove infrastructure blockers along the way; Percy Liang, 覚書 Scott Jeschonek氏、Gri Anantharaman氏、Diego Sarina氏、Joaquin Colombo氏、Chris Bray氏、Stephen Roylance氏、Kalyan Saladi氏、Shubho Sengupta氏、Brian O’Horo氏が、途中でインフラストラクチャブロッカを取り除く手助けをしてくれたことに感謝します。
訳抜け防止モード: 覚書 私たちは、Diego SarinaのScott Jeschonek, Giri Anantharamanに感謝します。 Joaquin Colombo, Chris Bray, Stephen Roylance, Kalyan Saladi Shubho Sengupta氏とBrian O’Horo氏は、途中でインフラストラクチャブロッカーを取り除く手助けをしてくれた。
0.61
英語(論文から抽出)日本語訳スコア
Rishi Bommasani, and Emily Dinan for discussions on responsible release practices; Carole-Jean Wu for discussions on sustainability and carbon footprint considerations; Srini Iyer, Ramakanth Pasunuru, and Shruti Bhosale for previous contributions to evaluations; Benjamin Lefaudeux, Geeta Chauhan, Natalia Gimelshein, Horace He, and Sam Gross for discussions on performance improvement work; Emily Dinan, Carole-Jean Wu, Daniel McKinnon, and Mark Tygert for feedback on this draft; Antoine Bordes, Joelle Pineau, Mary Williamson, Necip Fazil Ayan, Armand Joulin, Sergey Edunov, Melanie Kambadur, Zornitsa Kozareva, Ves Stoyanov, Vitaliy Liptchinsky, Rahul Iyer, Jing Xu, Jason Weston, and many others for supporting this project internally. Rishi Bommasani, and Emily Dinan for discussions on responsible release practices; Carole-Jean Wu for discussions on sustainability and carbon footprint considerations; Srini Iyer, Ramakanth Pasunuru, and Shruti Bhosale for previous contributions to evaluations; Benjamin Lefaudeux, Geeta Chauhan, Natalia Gimelshein, Horace He, and Sam Gross for discussions on performance improvement work; Emily Dinan, Carole-Jean Wu, Daniel McKinnon, and Mark Tygert for feedback on this draft; Antoine Bordes, Joelle Pineau, Mary Williamson, Necip Fazil Ayan, Armand Joulin, Sergey Edunov, Melanie Kambadur, Zornitsa Kozareva, Ves Stoyanov, Vitaliy Liptchinsky, Rahul Iyer, Jing Xu, Jason Weston, and many others for supporting this project internally.
訳抜け防止モード: Rishi Bommasani、Emily Dinan、Carole-Jean Wu、Srini Iyer、Ramakanth Pasunuru、 とShruti Bhosale氏による評価への以前の貢献、Benjamin Lefaudeux氏 Geeta Chauhan氏、Natalia Gimelshein氏、Horace He氏、Sam Gross氏によるパフォーマンス改善作業に関する議論、Emily Dinan氏、 Carole - Jean Wu, Daniel McKinnon, Mark Tygert 両氏による,このドラフトに対するフィードバック ; Antoine Bordes, Joelle Pineau, Mary Williamson, Necip Fazil Ayan, Armand Joulin Sergey Edunov, Melanie Kambadur, Zornitsa Kozareva, Ves Stoyanov, Vitaliy Liptchinsky Rahul Iyer氏、Jing Xu氏、Jason Weston氏らがこのプロジェクトを社内でサポートした。
0.75
References Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al 2020. Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al 2020を参照。
訳抜け防止モード: daniel adiwardana, minh - thang luong, david r so を参照。 ジェイミー・ホール ノア・フィーデル ロマル・ソピラン ジ・ヤン apoorv kulshreshtha, gaurav nemade, yifeng lu, et al 2020など。
0.59
Towards a human-like open-domain chatbot. 人間のようなオープンドメインチャットボットを目指す。 0.42
arXiv preprint arXiv:2001.09977. arXiv preprint arXiv:2001.09977 0.36
Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott, Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anantharaman, Xian Li, Shuohui Chen, Halil Akin, Mandeep Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Mona T. Diab, Zornitsa Kozareva, and Ves Stoyanov. Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott, Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giri Anantharaman, Xian Li, Shuohui Chen, Halil Akin, Mandeep Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Mona T. Diab, Zornitsa Kozareva, Ves Stoyanov
訳抜け防止モード: mikel artetxe, shruti bhosale, naman goyal, todor mihaylov, myle ott, sam shleifer, xi victoria lin, jingfei du srinivasan iyer, ramakanth pasunuru, giri anantharaman, xian li, シュホイ・チェン、ハリル・アキン、マンディープ・ベインズ、ルイ・マーティン xing zhou, punit singh koura, brian o’horo, jeff wang ルーク・ゼトルモイヤー、モナ・t・ディアブ、ゾルニツァ・コザレヴァ、ヴェス・ストヤノフ。
0.55
2021. large scale language modeling with mixtures of experts. 2021. 専門家の混合による大規模言語モデリング。 0.62
CoRR, abs/2112.10684. corr、abs/2112.10684。 0.42
Efficient Jason Baumgartner, Savvas Zannettou, Brian Keegan, Megan Squire, and Jeremy Blackburn. 効率性 Jason Baumgartner, Savvas Zannettou, Brian Keegan, Megan Squire, Jeremy Blackburn 0.52
2020. The pushshift reddit dataset. 2020. pushshift redditデータセット。 0.57
CoRR, abs/2001.08435. corr、abs/2001.08435。 0.37
Emily M Bender, Timnit Gebru, Angelina McMillanMajor, and Shmargaret Shmitchell. Emily M Bender、Timnit Gebru、Angelina McMillanMajor、Shmargaret Shmitchell。 0.70
2021. On the dangers of stochastic parrots: Can language models be too big? 2021. 確率的オウムの危険性について:言語モデルは大きすぎるか? 0.55
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 610–623. 2021年 ACM Conference on Fairness, Accountability, and Transparency, page 610–623 に参加。 0.79
Yonatan Bisk, Rowan Zellers, Ronan Le bras, Jianfeng Gao, and Yejin Choi. Yonatan Bisk、Rowan Zellers、Ronan Le bras、Jianfeng Gao、Yejin Choi。 0.65
2020. Piqa: Reasoning about physical commonsense in natural language. 2020. piqa: 自然言語における物理的常識の推論。 0.61
Proceedings of the AAAI Conference on Artificial Intelligence, 34(05):7432–7439. AAAI Conference on Artificial Intelligence, 34(05):7432-7439 に参加。 0.84
Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, and Samuel Weinbach. Sid Black、Stella Biderman、Eric Hallahan、Quentin Anthony、Leo Gao、Laurence Golding、Horace He、Connor Leahy、Kyle McDonell、Jason Phang、Michael Pieler、USVSN Sai Prashanth、Shivanshu Purohit、Laria Reynolds、Jonathan Tow、Ben Wang、Samuel Weinbach。
訳抜け防止モード: Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds ジョナサン・トウ、ベン・ワン、サミュエル・ワインバッハ。
0.78
2022. Gpt-neox-20b: An opensource autoregressive language model. 2022. Gpt-neox-20b: オープンソースの自動回帰言語モデル。 0.50
Su Lin Blodgett, Gilsinia Lopez, Alexandra Olteanu, Robert Sim, and Hanna Wallach. su lin blodgett、gilsinia lopez、alexandra olteanu、robert sim、hanna wallach。 0.60
2021. Stereotyping Norwegian salmon: An inventory of pitfalls in fairness benchmark datasets. 2021. stereotyping norwegian salmon: fairness benchmarkデータセットの落とし穴のインベントリ。 0.56
In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 1004–1015, Online. 第59回計算言語学会年次大会および第11回自然言語処理国際合同会議(第1巻:長い論文)の議事録において、1004-1015ページがオンラインで公開されている。 0.71
Association for Computational Linguistics. Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Shyamal Buch, Dallas Card, Rodrigo Castellon, Niladri Chatterji, Annie S. Chen, Kathleen Creel, Jared Quincy Davis, Dorottya Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, Stefano Ermon, John Etchemendy, Kawin Ethayarajh, Li FeiFei, Chelsea Finn, Trevor Gale, Lauren Gillespie, Karan Goel, Noah D. Goodman, Shelby Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, Geoff Keeling, Fereshte Khani, Omar Khattab, Pang Wei Koh, Mark S. Krass, Ranjay Krishna, Rohith Kuditipudi, and et al 2021. 計算言語学会会員。 Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Shyamal Buch, Dallas Card, Rodrigo Castellon, Niladri Chatterji, Annie S. Chen, Kathleen Creel, Jared Quincy Davis, Dorottya Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, Stefano Ermon, John Etchemendy, Kawin Ethayarajh, Li FeiFei, Chelsea Finn, Trevor Gale, Lauren Gillespie, Karan Goel, Noah D. Goodman, Shelby Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, Geoff Keeling, Fereshte Khani, Omar Khattab, Pang Wei Koh, Mark S. Krass, Ranjay Krishna, Rohith Kuditipudi, and et al 2021.
訳抜け防止モード: 計算言語学会会員。 rishi bommasani, drew a. hudson, ehsan adeli, russ altman simran arora, sydney von arx, michael s. bernstein, jeannette bohg, antoine bosselut, emma brunskill, erik brynjolfsson, shyamal buch, dallas card (英語) rodrigo castellon, niladri chatterji, annie s. chen, kathleen creel, jared quincy davis。 dorottya demszky, chris donahue, moussa doumbouya, esin durmus, stefano ermon, john etchemendy, kawin ethayarajh, li feifei, chelsea finn, trevor gale, lauren gillespie, karan goel, noah d. goodman, shelby grossman, neel guha, 橋本辰則、ピーター・ヘンダーソン、ジョン・ヒューイット、ダニエル・e・ホー、ジェニー・ホン カイル・フス、ジン・フアン、トーマス・イカール、サーヒル・ジャイン dan jurafsky, pratyusha kalluri, siddharth karamcheti, geoff keeling, fereshte khani, omar khattab, pang wei koh, mark s. krass, ranjay krishna, rohith kuditipudi, et al 2021など。
0.61
On the opportunities and risks of foundation models. 基礎モデルの機会とリスクについてです 0.70
CoRR, abs/2108.07258. CoRR, abs/2108.07258。 0.30
Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al 2021. Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al 2021
訳抜け防止モード: セバスチャン・ボルゴー、アーサー・メンシュ、ジョーダン・ホフマン、トレヴァー・カイ eliza rutherford, katie millican, george van den driessche, jean - baptiste lespiau, ボグダン・ダモック、エイダン・クラーク、アル・2021。
0.60
Improving language models by retrieving from trillions of tokens. 数兆のトークンから検索することで言語モデルを改善する。 0.63
arXiv preprint arXiv:2112.04426. arXiv プレプリント arXiv:2112.04426。 0.56
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ia Sutsk, Dario Démod
訳抜け防止モード: トム・ブラウン ベンジャミン・マン ニック・ライダー メラニー・サブビア ジャレッド・d・カプラン prafulla dhariwal, arvind neelakantan, pranav shyam, girish sastry amanda askell, sandhini agarwal, ariel herbertvoss, gretchen krueger, トム・ヘニハン ルーオン・チャイルド アディティヤ・ラメシュ ダニエル・ジーグラー ジェフリー・ウー クレメンス・ウィンター クリス・ヘッセ マーク・チェン eric sigler氏、mateusz litwin氏、scott gray氏、benjamin chess氏、jack clark氏。 クリストファー・バーナー、サム・マカンドリッシュ、アレク・ラドフォード、イリヤ・サツバー。 そして、ダリオ・アモデイ。
0.57
2020. Language models are few-shot learners. 2020. 言語モデルはわずかな学習者です。 0.56
In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. 神経情報処理システムの進歩』第33巻、1877-1901頁。 0.70
Curran Associates, Inc. Curran Associates, Inc. 0.42
Nathanael Chambers and Dan Jurafsky. ナサニエル・チェンバーズとダン・ジュラフスキー 0.39
2008. Unsupervised learning of narrative event chains. 2008. ナラティブイベントチェーンの教師なし学習。 0.51
In Proceedings of ACL-08: HLT, pages 789–797, Columbus, Ohio. acl-08: hlt, pages 789-797, columbus, ohio (英語) 0.72
Association for Computational Linguistics. Ke-Li Chiu and Rohan Alexander. 計算言語学会会員。 Ke-Li ChiuとRohan Alexander。 0.46
2021. DetectarXiv preprint 2021. DetectarXiv プレプリント 0.61
ing hate speech with gpt-3. gpt-3によるヘイトスピーチ。 0.63
arXiv:2103.12407. arXiv:2103.12407。 0.24
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi,
訳抜け防止モード: aakanksha chowdhery, sharan narang, jacob devlin, maarten bosma ガウラヴ・ミシュラ、アダム・ロバーツ、ポール・バラム、ヒョンがチャンを制した。 チャールズ・サットン、セバスチャン・ゲルマン、パーカー・シュー、ケンセン・シ
0.56
英語(論文から抽出)日本語訳スコア
Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel.
訳抜け防止モード: Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du ベン・ハッチンソン、ライナー・ポープ、ジェームズ・ブラッドベリー、ジェイコブ・オースティン。 Michael Isard, Guy Gur - Ari, Pengcheng Yin, Toju Duke Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier - Hellstern ダグラス・エック、ジェフ・ディーン、スラヴ・ペトロフ、ノア・フィーデル。
0.83
2022. Palm: Scaling language modeling with pathways. 2022. Palm: パスによる言語モデリングのスケーリング。 0.63
Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord 0.35
2018. Think you have solved question answering? 2018. 質問の答えは 解決したと思う? 0.57
try arc, the AI2 reasoning challenge. ai2推論チャレンジのarcを試してみてください。 0.56
CoRR, abs/1803.05457. コラー、abs/1803.05457。 0.40
Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, Rosanne Liu 0.38
2019. Plug and play language models: A simple approach to controlled text generation. 2019. plug and play言語モデル: 制御されたテキスト生成へのシンプルなアプローチ。 0.63
arXiv preprint arXiv:1912.02164. arXiv preprint arXiv:1912.02164 0.36
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. BERT: Pre-training of deep bidirectional transformers for language understanding. 2019. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.59
In North American Association for Computational Linguistics (NAACL). 北米計算言語学会(naacl)に加盟している。 0.59
Jwala Dhamala, Tony Sun, Varun Kumar, Satyapriya Krishna, Yada Pruksachatkun, Kai-Wei Chang, and Rahul Gupta. Jwala Dhamala, Tony Sun, Varun Kumar, Satyapriya Krishna, Yada Pruksachatkun, Kai-Wei Chang, Rahul Gupta 0.39
2021. Bold: Dataset and metrics for measuring biases in open-ended language genIn Proceedings of the 2021 ACM Confereration. 2021. bold: 2021 acm会議のオープンエンド言語生成過程におけるバイアス測定のためのデータセットとメトリクス。 0.61
ence on Fairness, Accountability, and Transparency, pages 862–872. ence on Fairness, Accountability, and Transparency, page 862–872。 0.46
Emily Dinan, Gavin Abercrombie, A Stevie Bergman, Shannon Spruit, Dirk Hovy, Y-Lan Boureau, and Verena Rieser. エミリー・ディナン、ギャビン・アバークロンビー、スティーヴィー・バーグマン、シャノン・スプライト、ディルク・ホヴィ、y-ラン・ブーレウ、ヴェレナ・リースアー。
訳抜け防止モード: エミリー・ディナン、ギャビン・アバークロンビー、スティーヴィー・バーグマン、シャノン・スプライト。 dirk hovy, y - lan boureau, verena rieser。
0.61
2021. Anticipating safety issues in e2e conversational ai: Framework and tooling. 2021. e2e会話型aiの安全性問題:フレームワークとツーリング。 0.55
arXiv preprint arXiv:2107.03451. arXiv preprint arXiv:2107.03451 0.36
Emily Dinan, Angela Fan, Adina Williams, Jack Urbanek, Douwe Kiela, and Jason Weston. Emily Dinan、Angela Fan、Adina Williams、Jack Urbanek、Douwe Kiela、Jason Weston。 0.73
2020a. Queens are powerful too: Mitigating gender bias in In Proceedings of the 2020 dialogue generation. 2020年。 女王も強力だ:2020年の対話世代における性バイアスの緩和。 0.69
Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8173–8188, Online. 英語) Empirical Methods in Natural Language Processing (EMNLP), page 8173–8188, Online. 0.80
Association for Computational Linguistics. Emily Dinan, Samuel Humeau, Bharath Chintagunta, and Jason Weston. 計算言語学会会員。 エミリー・ディナン、サミュエル・フモー、バラス・チンタグンタ、ジェイソン・ウェストン。 0.50
2019a. Build it break it fix it for dialogue safety: Robustness from adversarial human attack. 2019年。 構築 破壊 対話の安全のために修正する: 敵の人間の攻撃による堅牢性。 0.70
arXiv preprint arXiv:1908.06083. arXiv preprint arXiv:1908.06083 0.36
Emily Dinan, Varvara Logacheva, Valentin Malykh, Alexander Miller, Kurt Shuster, Jack Urbanek, Douwe Kiela, Arthur Szlam, Iulian Serban, Ryan Lowe, Shrimai Prabhumoye, Alan W. Black, Alexander Rudnicky, Jason Williams, Joelle Pineau, Mikhail Burtsev, and Jason Weston. エミリー・ディナン、varvara logacheva、valentin malykh、alexander miller、kurt shuster、jack urbanek、douwe kiela、arthur szlam、iulian serban、ryan lowe、shrimai prabhumoye、alan w. black、alexander rudnicky、jason williams、joelle pineau、mikhail burtsev、jason weston。
訳抜け防止モード: emily dinan, varvara logacheva, valentin malykh, alexander miller カート・シュスター、ジャック・アーバンレク、ドウウェ・キエラ、アーサー・シュラム iulian serban, ryan lowe, shrimai prabhumoye, alan w. black。 アレクサンダー・ラドニッキー ジェイソン・ウィリアムズ ジョエル・パイナウ ミハイル・ブルツェフ そしてジェイソン・ウェストン
0.65
2020b. The second conversational intelligence challenge (ConvAI2). 2020年。 第2回会話インテリジェンスチャレンジ(ConvAI2)。 0.76
In The NeurIPS ’18 Competition, pages 187– 208, Cham. The NeurIPS ’18 Competition, page 187–208, Cham. 0.41
Springer International Publishing. Springer International Publishing(英語) 0.71
Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. エミリー・ディナン、スティーブン・ローラー、カート・シュスター、アンジェラ・ファン、マイケル・オーリ、ジェイソン・ウェストン。 0.56
2019b. Wizard of Wikipedia: Knowledge-powered conversaIn Proceedings of the International tional agents. 2019年。 ウィキペディアの魔法: 知識を駆使した会話 国際暫定エージェントの証明。 0.71
Conference on Learning Representations. 学習表現に関する会議。 0.81
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, and Connor Leahy. Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy
訳抜け防止モード: レオ・ガオ ステラ・ビダーマン シド・ブラック ローレンス・ゴールディング トラヴィス・ホッペ チャールズ・フォスター ジェイソン・ファン ホレス・ヘ アニス・タイト、ノア・ナベシマ、ショーン・プレスラー、コナー・リーヒー。
0.45
2021a. The pile: An 800gb dataset of diverse text for language modeling. 2021年。 言語モデリングのための多様なテキストの800gbのデータセット。 0.79
CoRR, abs/2101.00027. CoRR, abs/2101.00027。 0.29
Tianyu Gao, Adam Fisch, and Danqi Chen. チアンユ・ガオ、アダム・フィッシュ、ダンチー・チェン。 0.42
2021b. Making pre-trained language models better few-shot In Proceedings of the 59th Annual Meetlearners. 2021年。 事前訓練された言語モデルを改善する 第59回Meetlearnersの成果。 0.72
ing of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL/IJCNLP 2021, (Volume 1: Long Papers), Virtual Event, August 1-6, 2021, pages 3816–3830. The Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL/IJCNLP 2021, (Volume 1: Long Papers), Virtual Event, August 1-6, 2021, page 3816–3830.
訳抜け防止モード: 第11回自然言語処理国際会議(Association for Computational Linguistics)の開催報告 ACL / IJCNLP 2021(巻1:長編) Virtual Event, August 1 - 6, 2021, page 3816–3830 .
0.80
Association for Computational Linguistics. Timnit Gebru, 計算言語学会会員。 ティニット・ゲブル(Timnit Gebru)。 0.44
Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III, and Kate Crawford. ジェイミー・モーゲンステルン、ブライアンナ・ヴェッキオーネ、ジェニファー・ウォルトマン・ヴォーン、ハンナ・ワラッハ、ハル・ダウメ3世、ケイト・クロフォード。
訳抜け防止モード: Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach ハル・ダウメ3世とケイト・クロフォード。
0.85
2021. Datasheets for datasets. 2021. データセット用のデータシート。 0.50
Commun. ACM, 64(12):86–92. 共産。 ACM, 64(12):86-92。 0.59
Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, Noah A. Smith 0.38
2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. 2020. realtoxicityprompts: 言語モデルにおける神経毒性変性の評価。 0.62
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 3356–3369, Online. In Findings of the Association for Computational Linguistics: EMNLP 2020, page 3356–3369, Online 0.42
Association for Computational Linguistics. Udit Gupta, Young Geun Kim, Sylvia Lee, Jordan Tse, Hsien-Hsin S Lee, Gu-Yeon Wei, David Brooks, and Carole-Jean Wu. 計算言語学会会員。 Udit Gupta, Young Geun Kim, Sylvia Lee, Jordan Tse, Hsien-Hsin S Lee, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
訳抜け防止モード: 計算言語学会会員。 Udit Gupta, Young Geun Kim, Sylvia Lee, Jordan Tse Hsien - Hsin S Lee, Gu - Yeon Wei, David Brooks ジャン・ウー(Jean Wu)。
0.71
2021. Chasing carbon: The elusive environmental footprint of computing. 2021. 炭素を追いかける:コンピューティングの環境的足跡を解明する。 0.58
IEEE International Symposium on High-Performance Computer Architecture (HPCA 2021). IEEE International Symposium on High-Performance Computer Architecture (HPCA 2021) に参加。 0.42
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. he、xiangyu zhang、shaoqing ren、jian sunの開明。 0.54
2016. Deep residual learning for image recogIn Proceedings of the IEEE conference on nition. 2016. 画像再帰のための深い残留学習 IEEEのnitionカンファレンスの成果。 0.54
computer vision and pattern recognition, pages 770– 778. コンピュータビジョンとパターン認識 770-778頁。 0.73
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan
訳抜け防止モード: ヨルダン・ホフマン、セバスチャン・ボルゴード、アーサー・メンシュ、エレナ・ブチャツカヤ トレバー・ケイ、エリザ・ラザフォード、ディエゴ・デ・ラス・カサス、リサ・アン・ヘンドリックス。 ヨハネス・ウェルブル エイダン・クラーク トム・ヘンニガン エリック・ノーランド katie millican氏, george van den driessche氏, bogdan氏
0.59
英語(論文から抽出)日本語訳スコア
Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Damoc、Aurelia Guy、Simon Osindero、Karen Simonyan、Erich Elsen、Jack W. Rae、Oriol Vinyals、Laurent Sifre。
訳抜け防止モード: ダモック アウレリア・ガイ シモン・オシンデロ カレン・シモンヤン エリヒ・エルセン ジャック・w・レイ(jack w. rae)、オリオール・ヴィニールズ(oriol vinyals)、ローラン・シファー(laurent sifre)。
0.49
2022. Training compute-optimal large language models. 2022. 計算最適大規模言語モデルのトレーニング。 0.56
Ari Holtzman, Jan Buys, Maxwell Forbes, and Yejin Choi. アリ・ホルツマン、ヤン・バイス、マクスウェル・フォーブス、エジン・チョイ。 0.46
2020. The curious case of neural text degeneration. 2020. 神経テキスト変性の興味深い例。 0.51
ArXiv, abs/1904.09751. ArXiv, abs/1904.09751。 0.60
Abigail Z. Jacobs and Hanna Wallach. Abigail Z. JacobsとHanna Wallach。 0.44
2021. Measurement and fairness. 2021. 測定と公平性。 0.57
In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, FAccT ’21, page 375–385, New York, NY, USA. 2021 acm conference on fairness, accountability, and transparencyの議事録で、facct ’21, page 375–385, new york, ny, usa。
訳抜け防止モード: 2021年度ACM「公正・説明責任会議」の開催にあたって And Transparency, FAccT ’ 21 page 375–385, New York, ニューヨーク、アメリカ。
0.79
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, and Geoffrey Irving. Zachary Kenton、Tom Everitt、Laura Weidinger、Iason Gabriel、Vladimir Mikulik、Geoffrey Irving。 0.35
2021. Alignment of language agents. 2021. 言語エージェントのアライメント。 0.54
CoRR, abs/2103.14659. CoRR, abs/2103.14659。 0.30
Mojtaba Komeili, Kurt Shuster, and Jason Weston. mojtaba komeili、kurt shuster、jason weston。 0.45
Internet-augmented dialogue generation. インターネットによる対話生成。 0.66
2021. CoRR, abs/2107.07566. 2021. CoRR, abs/2107.07566。 0.36
Ben Krause, Akhilesh Deepak Gotmare, Bryan McCann, Nitish Shirish Keskar, Shafiq Joty, Richard Socher, and Nazneen Fatema Rajani. Ben Krause, Akhilesh Deepak Gotmare, Bryan McCann, Nitish Shirish Keskar, Shafiq Joty, Richard Socher, Nazneen Fatema Rajani 0.37
2020. GEDI: Generative discriminator guided sequence generation. 2020. gedi: 生成的判別子誘導シーケンス生成。 0.55
arXiv preprint arXiv:2009.06367. arXiv preprint arXiv:2009.06367 0.36
Brian Lester, Rami Al-Rfou, and Noah Constant. ブライアン・レスター、ラミ・アル=ルフー、ノア・コンスタン。 0.40
2021. The power of scale for parameter-efficient prompt tuning. 2021. パラメータ効率の良いプロンプトチューニングのためのスケールのパワー。 0.58
CoRR, abs/2104.08691. corr、abs/2104.08691。 0.40
Hector J Levesque, Ernest Davis, and Leora Morgenstern. Hector J Levesque、Ernest Davis、Leora Morgenstern。 0.34
2011. The Winograd schema challenge. 2011. Winogradスキーマの課題。 0.54
In AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning, volume 46, page 47. AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning, Volume 46, page 47。 0.37
Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al 2020. Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al 2020
訳抜け防止モード: パトリック・ルイス イーサン・ペレス アレクサンドラ・ピクトゥス ファビオ・ペトロニ ウラジーミル・カルプヒン、ナマン・ゴヤル、ハインリヒ・キュートル、マイク・ルイス wen - tau yih, tim rocktäschel, et al 2020を参照。
0.67
Retrieval-augmented generation for knowledge-intensive nlp tasks. 知識集約型nlpタスクのための検索型生成 0.45
Advances in Neural Information Processing Systems, 33:9459–9474. ニューラル情報処理システム(33:9459-9474)の進歩 0.60
Xiang Lisa Li and Percy Liang. xiang lisa li と percy liang。 0.61
2021. Prefix-Tuning: Optimizing Continuous Prompts for Generation. 2021. プレフィックスチューニング: 生成のための継続的プロンプトの最適化。 0.49
pages 4582–4597. 4582-4597頁。 0.48
Paul Pu Liang, Chiyu Wu, Louis-Philippe Morency, and Ruslan Salakhutdinov. Paul Pu Liang、Chiyu Wu、Louis-Philippe Morency、Ruslan Salakhutdinov。 0.39
2021. Towards understanding and mitigating social biases in language In International Conference on Machine models. 2021. 機械モデル国際会議における言語における社会的バイアスの理解と緩和に向けて 0.58
Learning, pages 6565–6576. 書評6565-6576頁。 0.24
PMLR. Opher Lieber, Or Sharir, Barak Lenz, and Yoav Jurassic-1: Technical details and PMLR。 Opher Lieber, Or Sharir, Barak Lenz, Yoav Jurassic-1: 技術的な詳細と解説 0.65
Shoham. 2021. ショハム 2021. 0.37
evaluation. Technical report, AI21 Labs. 評価 専門はAI21研究所。 0.51
Haochen Liu, Jamell Dacon, Wenqi Fan, Hui Liu, Zitao Liu, and Jiliang Tang. Haochen Liu, Jamell Dacon, Wenqi Fan, Hui Liu, Zitao Liu, Jiliang Tang 0.35
2019a. Does gender matter? 2019年。 性別は重要か? 0.71
towards fairness in dialogue systems. 対話システムの公平性に向けます 0.66
arXiv preprint arXiv:1910.10486. arXiv preprint arXiv:1910.10486 0.35
Haokun Liu, William Huang, Dhara Mungra, and Samuel R. Bowman. Haokun Liu、William Huang、Dhara Mungra、Samuel R. Bowman。 0.38
2020. Precise task formalization matters in Winograd schema evaluations. 2020. Winogradスキーマ評価におけるタスクの精密化 0.57
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8275–8280, Online. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録では、8275-8280ページがオンラインで公開されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 8275-8280頁。
0.71
Association for Computational Linguistics. Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen. 計算言語学会会員。 Jiachang Liu、Dinghan Shen、Yizhe Zhang、Bill Dolan、Lawrence Carin、Weizhu Chen。 0.61
2021. What makes good in-context examples for gpt-3? 2021. gpt-3の良いインコンテキストの例は何でしょう? 0.53
CoRR, abs/2101.06804. コラー、abs/2101.06804。 0.44
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.61
2019b. Roberta: A robustly optimized bert pretraining approach. 2019年。 roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.63
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.36
Ilya Loshchilov and Frank Hutter. Ilya LoshchilovとFrank Hutter。 0.79
2017. weight decay regularization in adam. 2017. アダムの体重減少正規化 0.46
abs/1711.05101. abs/1711.05101。 0.45
Fixing CoRR, Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp. CoRR の修正。 ヤオ・ル、マックス・バルトロ、アラステア・ムーア、セバスチャン・リーデル、ポントス・ステネトロップ。 0.64
2021. Fantastically ordered prompts and where to find them: Overcoming few-shot prompt order sensitivity. 2021. すばらしく順序付けされたプロンプトと、それを見つける場所: 数発のプロンプトの感度を克服する。 0.48
Clara Meister, Tim Vieira, and Ryan Cotterell. クララ・マイスター、ティム・ヴィエイラ、ライアン・コッテル。 0.43
2020. Best-first beam search. 2020. ベストファーストビームサーチ。 0.55
Transactions of the Association for Computational Linguistics, 8:795–809. 計算言語学会のトランザクション 8:795–809。 0.60
Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al 2017. Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al 2017
訳抜け防止モード: paulius micikevicius, sharan narang, jonah alben, gregory diamos エリック・エルセン デヴィッド・ガルシア ボリス・ギンズバーグ マイケル・ヒューストン oleksii kuchaiev、ganesh venkatesh、 et al 2017など。
0.57
Mixed precision training. 混合精度トレーニング。 0.68
arXiv preprint arXiv:1710.03740. arXiv preprint arXiv:1710.03740 0.36
Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. todor mihaylov、peter clark、tushar khot、ashish sabharwal。 0.50
2018. Can a suit of armor conduct electricity? 2018. 防具のスーツは電気を通せるか? 0.56
A new dataset for open book question answering. オープンブック質問応答のための新しいデータセット。 0.78
CoRR, abs/1809.02789. corr、abs/1809.02789。 0.39
Tomas Mikolov, Jiri Kopecky, Lukas Burget, Ondrej Glembek, et al 2009. Tomas Mikolov, Jiri Kopecky, Lukas Burget, Ondrej Glembek, et al 2009 0.39
Neural network based language models for highly inflective languages. 高屈折率言語のためのニューラルネットワークに基づく言語モデル。 0.71
In 2009 IEEE international conference on acoustics, speech and signal processing, pages 4725–4728. 2009年、IEEE International Conference on Acoustics, speech and signal processing, page 4725–4728。 0.45
IEEE. Sewon Min, Mike Lewis, Luke Zettlemoyer, and Hannaneh Hajishirzi. IEEE。 Sewon Min、Mike Lewis、Luke Zettlemoyer、Hannaneh Hajishirzi。 0.38
2021. Metaicl: Learning to learn in context. 2021. Metaicl: コンテキストで学ぶことを学ぶこと。 0.60
Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, and Luke Zettlemoyer. Sewon Min、Xinxi Lyu、Ari Holtzman、Mikel Artetxe、Mike Lewis、Hannaneh Hajishirzi、Luke Zettlemoyer。 0.36
2022. Rethinking the role of demonstrations: What makes in-context learning work? 2022. デモの役割を再考する: インコンテキスト学習が機能する理由 0.55
arXiv preprint arXiv:2202.12837. arXiv preprint arXiv:2202.12837 0.36
Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, Timnit Gebru
訳抜け防止モード: マーガレット・ミッチェル、シモーヌ・ウー、アンドリュー・ザーディヴァール、パーカー・バーンズ。 Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji そしてTimnit Gebru。
0.71
2018. Model cards for model reporting. 2018. モデルレポート用のモデルカード。 0.63
CoRR, abs/1810.03993. コラー、abs/1810.03993。 0.37
英語(論文から抽出)日本語訳スコア
Ioannis Mollas, Zoe Chrysopoulou, Stamatis Karlos, and Grigorios Tsoumakas. Ioannis Mollas, Zoe Chrysopoulou, Stamatis Karlos, Grigorios Tsoumakas 0.32
2020. ETHOS: an online hate speech detection dataset. 2020. ETHOS: オンラインヘイトスピーチ検出データセット。 0.54
CoRR, abs/2006.08328. コラー、abs/2006.08328。 0.40
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. アレク・ラドフォード、ジェフリー・ウー、レウォン・チャイルド、デイヴィッド・ルーアン、ダリオ・アモデイ、イリヤ・サツバー。 0.49
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.51
Technical report, OpenAI. openaiの技術レポート。 0.62
Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, and James F. Allen. Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, James F. Allen 0.39
2016. A corpus and evaluation framework for deeper CoRR, understanding of commonsense stories. 2016. コモンセンスストーリーの理解をより深く理解するためのコーパスと評価フレームワーク 0.54
abs/1604.01696. abs/1604.01696 0.26
Moin Nadeem, Anna Bethke, and Siva Reddy. Moin Nadeem、Anna Bethke、Siva Reddy。 0.34
2021. StereoSet: Measuring stereotypical bias in preIn Association for Comtrained language models. 2021. StereoSet: PreIn Association for Comtrained Language Modelにおけるステレオタイプバイアスの測定。 0.63
putational Linguistics (ACL). 専門は言語学(acl)。 0.63
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al 2021. 中野礼一郎、ヤコブ・ヒルトン、サワール・バラジ、ジェフ・ウー、ロング・ウーヤン、クリスティーナ・キム、クリストファー・ヘッセ、シャンタヌ・ジャイン、ヴィネット・コサラジュ、ウィリアム・サンダースなど2021年。
訳抜け防止モード: 中野礼一郎、ジェイコブ・ヒルトン、サシル・バラジ、ジェフ・ウー Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain Viet Kosaraju , William Saunders , et al 2021
0.68
Webgpt: Browser-assisted questionarXiv preprint answering with human feedback. webgpt: 人からのフィードバックによるブラウザ支援qwerarxivプレプリント応答。 0.61
arXiv:2112.09332. arXiv:2112.09332。 0.48
Nikita Nangia, Clara Vania, Rasika Bhalerao, and Samuel R Bowman. ニキータ・ナンギア、クララ・ヴァニア、ラシカ・バラレオ、サミュエル・R・ボウマン。 0.42
2020. Crows-pairs: A challenge dataset for measuring social biases in masked language models. 2020. crows-pairs: マスキング言語モデルにおける社会的バイアスを測定するためのチャレンジデータセット。 0.53
arXiv preprint arXiv:2010.00133. arXiv preprint arXiv:2010.00133 0.36
Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, and Caiming Xiong. erik nijkamp氏、bo pang氏、林弘明氏、lifu tu氏、huan wang氏、yingbo zhou氏、silvio savarese氏、caiming xiong氏。 0.45
2022. A conversational paradigm for program synthesis. 2022. プログラム合成のための会話パラダイム。 0.61
arXiv preprint. arXiv プレプリント。 0.85
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al Training language models to follow in2022. Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Rayなどのトレーニング言語モデルが2022年に続く。 0.83
arXiv preprint structions with human feedback. arXiv 人間のフィードバックによる事前プリント構造体。 0.66
arXiv:2203.02155. arXiv:2203.02155。 0.48
David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, and Jeff Dean. David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean
訳抜け防止モード: David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang Lluis - Miquel Munguia, Daniel Rothchild, David So, Maud Texier ジェフ・ディーン。
0.77
2021. Carbon emissions and large neural network training. 2021. 二酸化炭素排出量と大規模ニューラルネットワークトレーニング。 0.51
arXiv preprint arXiv:2104.10350. arXiv preprint arXiv:2104.10350 0.36
Ethan Perez, Douwe Kiela, and Kyunghyun Cho. ethan perez、douwe kiela、kyunghyun cho。 0.50
2021. True few-shot learning with language models. 2021. 言語モデルによる真に数発の学習。 0.53
Advances in Neural Information Processing Systems, 34. 神経情報処理システムの進歩34。 0.61
Fabio Petroni, Tim Rocktäschel, Sebastian Riedel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, and Alexander Miller. Fabio Petroni, Tim Rocktäschel, Sebastian Riedel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander Miller
訳抜け防止モード: Fabio Petroni, Tim Rocktäschel, Sebastian Riedel, Patrick Lewis アントン・バクティン(Anton Bakhtin)、ユキサン・ウー(Yuxiang Wu)、アレクサンドル・ミラー(Alexander Miller)。
0.74
2019. Language models as knowlIn Proceedings of the 2019 Conferedge bases? 2019. 2019 conferedge basesのknowlinプロシージャとしての言語モデル? 0.63
ence on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLPIJCNLP), pages 2463–2473, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlpijcnlp), 香港2463-2473ページ
訳抜け防止モード: 第9回自然言語処理国際共同会議(emnlpijcnlp)に参加して 2463-2473頁、香港、中国。
0.54
Association for Computational Linguistics. Alec Radford, Karthik Narasimhan, Time Salimans, and Ilya Sutskever. 計算言語学会会員。 アレク・ラドフォード、カルティク・ナラシモン、タイム・サリマンズ、イリヤ・サツバー。 0.49
2018. Improving language understanding with unsupervised learning. 2018. 教師なし学習による言語理解の改善。 0.54
Technical report, OpenAI. openaiの技術レポート。 0.62
Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, H. Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant M. Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake A. Hechtman, Laura Weidinger, Iason Gabriel, William S. Isaac, Edward Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, H. Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant M. Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake A. Hechtman, Laura Weidinger, Iason Gabriel, William S. Isaac, Edward Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving.
訳抜け防止モード: ジャック・w・レイ、セバスチャン・ボルゴー、トレヴァー・カイ、ケイティ・ミリカン ジョーダン・ホフマン、h・フランシス・ソング、ジョン・アスラニデス、サラ・ヘンダーソン、ローマ・リング、スザンナ・ヤング。 エリザ・ラザフォード トム・ヘニガン ジェイコブ・メニック アルビン・キャシラー リチャード・パウエル、ジョージ・ヴァン・デン・ドリーチェ、リサ・アン・ヘンドリックス。 maribeth rauh, po - sen huang, amelia glaese, johannes welbl, sumanth dathathri サフラン・ファン、ジョナサン・ウエサト、ジョン・メラー、イリーナ・ヒギンズ アントニア・クレズウェル ナット・マカレーズ エイミー・ウー エリヒ・エルセン siddhant m. jayakumar, elena buchatskaya, david budden, esme sutherland karen simonyan, michela paganini, laurent sifre, lena martens, xiang lorraine li, adhiguna kuncoro, aida nematzadeh, elena gribovskaya, domenic donato, angeliki lazaridou, arthur mensch, jean - baptiste lespiau, maria tsimpoukelli ニコライ・グリゴレフ、ダグ・フリッツ、ティボー・ソティトー、マンタス・パジャルスカ、トビー・ポーレン。 zhitao gong, daniel toyama, cyprien de masson d’autume, yujia li, tayfun terzi, vladimir mikulik イゴール・バブッシュキン エイダン・クラーク ディエゴ・デ・ラス・カサス アウレリア・ガイ クリス・ジョーンズ ジェームズ・ブラッドベリー マシュー・ジョンソン ブレイク・a・ヘクトマン ローラ・ウェディンジャー、イアソン・ガブリエル、ウィリアム・アイザック、エドワード・ロックハート simon osindero, laura rimell, chris dyer, oriol vinyals。 kareem ayoub, jeff stanway, lorrayne bennett, demis hassabis. koray kavukcuogluとgeoffrey irving。
0.62
2021. Scaling language models: Methods, analysis & insights from training gopher. 2021. 言語モデルのスケーリング: メソッド、分析、トレーニングからの洞察。 0.57
CoRR, abs/2112.11446. corr、abs/2112.11446。 0.40
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. コリン・ラフェル、ノーム・シャザー、アダム・ロバーツ、キャサリン・リー、シャラン・ナラン、マイケル・マテナ、ヤンチー・周、ウェイ・リー、ピーター・j・リュー。
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リウ(Peter J Liu)。
0.89
2020. Exploring the limits of transfer learning with a unified text-to-text transformer. 2020. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.62
The Journal of Machine Learning Research (JMLR), 21:1–67. The Journal of Machine Learning Research (JMLR) 21:1–67。 0.45
Anand Rajaraman and Jeffrey David Ullman. アナンド・ラジャラマンとジェフリー・デイヴィッド・ウルマン。 0.48
2011. Mining of massive datasets. 2011. 膨大なデータセットのマイニング。 0.55
Cambridge University Press. ケンブリッジ大学出版局。 0.68
Hannah Rashkin, Eric Michael Smith, Margaret Li, and Y-Lan Boureau. hannah rashkin、eric michael smith、margaret li、y-lan boureau。 0.55
2019. Towards empathetic opendomain conversation models: A new benchmark and In Proceedings of the 57th Annual Meetdataset. 2019. 共感的オープンドメイン会話モデルに向けて:新しいベンチマークと第57回Meetdatasetの成果 0.58
ing of the Association for Computational Linguistics, pages 5370–5381, Florence, Italy. The Association for Computational Linguistics, page 5370–5381, Florence, Italy。 0.40
Association for Computational Linguistics. Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Eric Michael Smith, Y-Lan Boureau, and Jason Weston. 計算言語学会会員。 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Eric Michael Smith, Y-Lan Boureau, Jason Weston
訳抜け防止モード: 計算言語学会会員。 Stephen Roller, Emily Dinan, Naman Goyal, Da Ju Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott エリック・マイケル・スミス、Y - ラン・ブールウ、ジェイソン・ウェストン。
0.67
2021. Recipes for building an open-domain chatbot. 2021. オープンドメインチャットボット構築のためのレシピ。 0.51
In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 300–325, Online. The 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, page 300–325, Online 0.38
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. 坂口敬介、ロナン・ル・ブラス、チャンドラ・バガヴァトゥラ、エジン・チョイ。 0.43
2020. Winogrande: An adversarial winograd schema challenge at scale. 2020. Winogrande: スケールの逆のWinogradスキーマの問題です。 0.60
In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 8732– 8740. The Thir-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, page 8732–8740。
訳抜け防止モード: 第30-第4回人工知能会議(aaai 2020)に参加して 第30回人工知能会議(iaai 2020, the tenth aaai symposium on educational advances in artificial intelligence)のイノベーティブな応用 eaai 2020, new york, ny, usa, february 7–122020年 8732年 - 8740頁。
0.76
AAAI Press. aaai press所属。 0.47
Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Stella Biderman, Leo Gao, Tali Bers, Thomas Wolf, and Alexander M. Rush. Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Stella Biderman, Leo Gao, Tali Bers, Thomas Wolf, and Alexander M. Rush.
訳抜け防止モード: ヴィクター・サン、アルバート・ウェブソン、コリン・ラフフェル、スティーブン・h・バッハ lintang sutawika, zaid alyafeai, antoine chaffin, arnaud stiegler, teven le scao arun raja, manan dey, m saiful bari, canwen xu, urmish thakker, shanya sharma sharma, eliza szczechla, taewoon kim, gunjan chhablani, nihal nayak, debajyoti datta, jonathan chang, mike tian - jian jiang, ハン・ワン マッテオ・マニカ シェン・シェン・シン・ヨン 過酷なパンディー レイチェル・バウデン トーマス・ワン トリシャラ・ネラジ ジョス・ローゼン abheesht sharma, andrea santilli, thibault fevry, jason alan fries。 ライアン・ティーハン ステラ・ビダーマン レオ・ガオ タリ・バーズ トーマス・ウルフとアレクサンダー・m・ラッシュ。
0.61
2021. Multitask prompted training enables zero-shot task generalization. 2021. マルチタスク起動トレーニングは、ゼロショットタスクの一般化を可能にする。 0.44
Teven Le Scao and Alexander M. Rush. Teven Le ScaoとAlexander M. Rush。 0.45
2021. How many data points is a prompt worth? 2021. プロンプトの価値あるデータポイントはいくつあるか? 0.58
pages 2627– 2636. 2627-2636頁。 0.68
Timo Schick and Hinrich Schütze. ティモ・シックとヒンリッヒ・シュッツェ 0.39
2020. It’s not just size that matters: Small language models are also few-shot learners. 2020. サイズだけでなく、小さな言語モデルも数発の学習者なのです。 0.57
CoRR, abs/2009.07118. コラー、abs/2009.07118。 0.39
Timo Schick, Sahana Udupa, and Hinrich Schütze. ティモ・シック、サハナ・ウドゥパ、ヒンリッヒ・シュッツェ。 0.33
2021. Self-diagnosis and self-debiasing: A proposal for reducing corpus-based bias in nlp. 2021. 自己診断と自己認知: nlpにおけるコーパスに基づくバイアスを減らすための提案 0.53
Transactions of the Association for Computational Linguistics, 9:1408–1424. 計算言語学協会(Association for Computational Linguistics)のトランザクション 9:1408–1424。 0.57
Rico Sennrich, Barry Haddow, and Alexandra Birch. リコ・センリッヒ、バリー・ハドウ、アレクサンドラ・バーチ。 0.53
2016. Neural machine translation of rare words with subword units. 2016. サブワード単位を用いたレアワードのニューラルマシン翻訳 0.58
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715– 1725, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers, page 1715–1725, Berlin, Germany)に参加して 0.69
Association for Computational Linguistics. Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. 計算言語学会会員。 エミリー・シェン、カイ・ウェイ・チャン、プレムマル・ナタラジャン、ナヌン・ペン。 0.46
2019. The woman worked as a babysitter: On biases in language generation. 2019. 女性はベビーシッターとして働いていました。 0.43
arXiv preprint arXiv:1909.01326. arXiv preprint arXiv:1909.01326 0.36
Kurt Shuster, Mojtaba Komeili, Leonard Adolphs, Stephen Roller, Arthur Szlam, and Jason Weston. kurt shuster、mojtaba komeili、leonard adolphs、stephen roller、arthur szlam、jason weston。 0.58
2022. Language models that seek for knowledge: Modular search & generation for diarXiv preprint alogue and prompt completion. 2022. 知識を求める言語モデル: diarXivの事前印刷アログのモジュール検索と生成と即時補完。 0.59
arXiv:2203.13224. arXiv:2203.13224。 0.48
Eric Smith, Mary Williamson, Kurt Shuster, Jason Weston, and Y-Lan Boureau. Eric Smith、Mary Williamson、Kurt Shuster、Jason Weston、Y-Lan Boureau。 0.41
2020. Can you put it all together: Evaluating conversational agents’ ability to blend skills. 2020. 会話エージェントがスキルをブレンドする能力を評価することだ。 0.45
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 第58回計算言語学会年次大会を終えて 0.43
ACL. Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zheng, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, and Bryan Catanzaro. ACL。 Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zheng, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro
訳抜け防止モード: ACL。 ショーン・スミス モソファ・パトヴァリー ブランドン・ノリック パトリック・レグレズリー samyam rajbhandari, jared casper, zhun liu, shrimai prabhumoye, george zerveas, vijay korthikanti, elton zheng, rewon child. reza yazdani aminabadi, julie bernauer, xia song, mohammad shoeybi, ユシオン・ヘ、マイケル・ヒューストン、サウラブ・ティワリー、ブライアン・カタンザロ。
0.50
2022. Using deepspeed and megatron to train megatron-turing NLG 530b, A large-scale generative language model. 2022. deepspeedとmegatronを使用してmegatron-turing nlg 530bをトレーニングする。 0.52
CoRR, abs/2201.11990. corr, abs/2201.1 1990年。 0.38
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al 2022. Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al 2022
訳抜け防止モード: romal thoppilan, daniel de freitas, jamie hall, noam shazeer, apoorv kulshreshtha, ヘン - tze cheng, alicia jin, taylor bos, レスリー・ベイカー。 2022年。
0.57
Lamda: Language models for dialog applications. Lamda: ダイアログアプリケーションのための言語モデル。 0.85
arXiv preprint arXiv:2201.08239. arXiv プレプリント arXiv:2201.08239。 0.55
Trieu H. Trinh and Quoc V. Le. trieu h. trinh と quoc v. le。 0.66
2018. A simple method for commonsense reasoning. 2018. 常識推論のための簡単な方法。 0.56
CoRR, abs/1806.02847. corr、abs/1806.02847。 0.39
Megan Ung, Jing Xu, and Y-Lan Boureau. Megan Ung、Jing Xu、Y-Lan Boureau。 0.41
2021. Saferdialogues: Taking feedback gracefully after conversational safety failures. 2021. safedialogues: 会話の安全に失敗した後、優雅にフィードバックを受け取ります。 0.49
ArXiv, abs/2110.07518. ArXiv, abs/2110.07518。 0.29
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。
訳抜け防止モード: ashish vaswani, noam shazeer, niki parmar, jakob uszkoreit, リオン・ジョーンズ、エイダン・ン・ゴメス、ウカシュ・カイザー、イリア・ポロスクヒン。
0.40
2017. Attention is all In Advances in neural information proyou need. 2017. 注意はすべて、必要なニューラルネットワークの進歩にある。 0.52
cessing systems. Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R. Bowman. システム停止。 Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman
訳抜け防止モード: システム停止。 Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh ジュリアン・マイケル、フェリックス・ヒル、オマー・レヴィ、サミュエル・R・ボウマン。
0.59
2019. SuperGLUE: A stickier benchmark for general-purpose language understanding systems. 2019. SuperGLUE: 汎用言語理解システムのためのステッカーベンチマーク。 0.58
arXiv preprint 1905.00537. arXiv preprint 1905.00537 0.46
Albert Webson and Ellie Pavlick. アルバート・ウェブソンと エリー・パヴリック 0.54
2021. Do promptbased models really understand the meaning of their prompts? 2021. プロンプトベースのモデルはプロンプトの意味を本当に理解していますか? 0.47
arXiv preprint arXiv:2109.01247. arXiv preprint arXiv:2109.01247 0.36
Taylor Shin, Yasaman Razeghi, Robert L. Logan IV, Eric Wallace, and Sameer Singh. テイラー・シン、ヤサマン・ラゼギ、ロバート・l・ローガン4世、エリック・ウォレス、サマー・シン。 0.52
2020. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts. 2020. AutoPrompt: 自動生成プロンプトによる言語モデルからの知識の排除。 0.65
pages 4222– 4235. 4222-4235頁。 0.30
Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le
訳抜け防止モード: Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai そして、クオックV.Le。
0.87
2021. Finetuned language models are zero-shot learners. 2021. 微調整言語モデルはゼロショット学習者です。 0.50
CoRR, abs/2109.01652. CoRR, abs/2109.01652。 0.30
Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. Mohammad Shoeybi、Mostofa Patwary、Raul Puri、Patrick LeGresley、Jared Casper、Bryan Catanzaro。 0.36
2019. Megatron-lm: Training multi-billion parameter language models using model parallelism. 2019. Megatron-lm: モデル並列性を用いたマルチビリオンパラメータ言語モデルのトレーニング。 0.54
arXiv preprint arXiv:1909.08053. arXiv preprint arXiv:1909.08053 0.36
Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia
訳抜け防止モード: ローラ・ウェディンジャー、ジョン・メラー、マリベス・ラウ、コナー・グリフィン jonathan uesato, po - sen huang, myra cheng, mia glaese, borja balle, atoosa kasirzadeh, zac kenton, sasha brown, will hawkins. トム・ステプルトン、コートニー・胆汁、アベバ・ビルハネ、ジュリア
0.67
英語(論文から抽出)日本語訳スコア
Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, and Iason Gabriel. ハース、ローラ・リムセル、リサ・アン・ヘンドリックス、ウィリアム・アイザック、ショーン・レガシック、ジェフリー・アーヴィング、イアソン・ガブリエル。
訳抜け防止モード: Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac ショーン・レガシック、ジェフリー・アーヴィング、アイソン・ガブリエル。
0.77
2021a. Ethical and social risks of harm from language models. 2021年。 言語モデルから害を受ける倫理的・社会的リスク。 0.75
Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al 2021b. Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al 2021b
訳抜け防止モード: ローラ・ウェディンジャー、ジョン・メラー、マリベス・ラウ、コナー・グリフィン jonathan uesato, po - sen huang, myra cheng, mia glaese, borja balle, atoosa kasirzadeh, et al 2021b。
0.67
Ethical and social risks of harm from language models. 言語モデルから害を受ける倫理的・社会的リスク。 0.71
arXiv preprint arXiv:2112.04359. arXiv preprint arXiv:2112.04359 0.35
Sean Welleck, Ilia Kulikov, Stephen Roller, Emily Dinan, Kyunghyun Cho, and Jason Weston. ショーン・ウェレック、イリア・クリコフ、スティーブン・ローラー、エミリー・ディナン、チャンヒョン・チョー、ジェイソン・ウェストン。 0.58
2020. Neural text generation with unlikelihood training. 2020. 異種訓練によるニューラルテキスト生成 0.51
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Carole-Jean Wu, Ramya Raghavendra, Udit Gupta, Bilge Acun, Newsha Ardalani, Kiwan Maeng, Gloria Chang, Fiona Aga Behram, James Huang, Charles Bai, Michael Gschwind, Anurag Gupta, Myle Ott, Anastasia Melnikov, Salvatore Candido, David Brooks, Geeta Chauhan, Benjamin Lee, Hsien-Hsin S. Lee, Bugra Akyildiz, Maximilian Balandat, Joe Spisak, Ravi Jain, Mike Rabbat, and Kim Hazelwood. Carole-Jean Wu, Ramya Raghavendra, Udit Gupta, Bilge Acun, Newsha Ardalani, Kiwan Maeng, Gloria Chang, Fiona Aga Behram, James Huang, Charles Bai, Michael Gschwind, Anurag Gupta, Myle Ott, Anastasia Melnikov, Salvatore Candido, David Brooks, Geeta Chauhan, Benjamin Lee, Hsien-Hsin S. Lee, Bugra Akyildiz, Maximilian Balandat, Joe Spisak, Ravi Jain, Mike Rabbat, Kim Hazelwood 0.44
2022. Sustainable AI: environmental implications, challenges and opportunities. 2022. 持続可能なai: 環境への影響、挑戦、機会。 0.53
In Proceedings of the Conference on Machine Learning and Systems. 機械学習とシステムに関する会議の開催にあたって 0.75
Jing Xu, Da Ju, Margaret Li, Y-Lan Boureau, Jason Weston, and Emily Dinan. Jing Xu、Da Ju、Margaret Li、Y-Lan Boureau、Jason Weston、Emily Dinan。 0.38
2020. Recipes for arXiv preprint safety in open-domain chatbots. 2020. オープンドメインチャットボットにおけるarxivプレプリント安全性のレシピ 0.42
arXiv:2010.07079. arXiv:2010.07079。 0.48
Jing Xu, Da Ju, Margaret Li, Y-Lan Boureau, Jason Weston, and Emily Dinan. Jing Xu、Da Ju、Margaret Li、Y-Lan Boureau、Jason Weston、Emily Dinan。 0.38
2021a. Bot-adversarial dialogue for safe conversational agents. 2021年。 安全な会話エージェントのためのボット・アドバイサル対話 0.66
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2950–2968, Online. The Association for Computational Linguistics: Human Language Technologies, page 2950–2968, Online. (英語)
訳抜け防止モード: 計算言語学会北米支部2021年会紀要 : 人間言語技術 2950-2968頁。
0.37
Association for Computational Linguistics. Jing Xu, Arthur Szlam, and Jason Weston. 計算言語学会会員。 Jing Xu、Arthur Szlam、Jason Weston。 0.58
2021b. Beyond goldfish memory: Long-term open-domain conversation. 2021年。 goldfish memoryを超える: 長期的なオープンドメイン会話。 0.69
arXiv preprint arXiv:2107.07567. arXiv preprint arXiv:2107.07567 0.36
Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi 0.34
2019. Hellaswag: Can In Proa machine really finish your sentence? 2019. Hellaswag: Proaマシンは本当に文を終了できますか? 0.58
ceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, pages 4791–4800. 第57回計算言語学会大会(acl 2019, florence, italy, july 28– august 2, volume 1: long papers, pages 4791–4800)の開催。 0.65
Association for Computational Linguistics. Yukun Zhu, Ryan Kiros, Richard S. Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 計算言語学会会員。 Yukun Zhu、Ryan Kiros、Richard S. Zemel、Ruslan Salakhutdinov、Raquel Urtasun、Antonio Torralba、Sanja Fidler。 0.62
2015. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. 2015. 本や映画を配する:映画を見て本を読むことで物語のような視覚的説明を目指す。 0.49
CoRR, abs/1506.06724. CoRR, abs/1506.06724。 0.30
英語(論文から抽出)日本語訳スコア
A Additional Evaluations . Figure 6: Zero-shot NLP Evaluations. 追加評価。 図6:ゼロショットNLP評価。 0.63
Full evaluations on all 16 NLP tasks, with comparisons where available. 16のNLPタスクの完全な評価と、利用可能な比較。 0.71
We find that across most tasks, GPT-3 models and OPT models perform similarly, but some tasks display highly erratic behavior. 多くのタスクにおいて、GPT-3モデルとOPTモデルも同様に動作するが、いくつかのタスクは極めて不規則な振る舞いを示す。 0.63
10810910101011101230 4050607080AccuracyHe llaSwag1081091010101 1101262.565.067.570. 072.575.077.580.082. 5StoryCloze108109101 01011101262.565.067. 570.072.575.077.580. 082.5PIQA10810910101 01110124045505560657 0ARC (Easy)10810910101011 10123035404550Accura cyARC (Challenge)108109101 0101110123540455055O penBookQA10810910101 01110125055606570758 0Winogrande108109101 01011101260657075808 590Winograd108109101 01011101250556065707 58085AccuracyBoolQ10 81091010101110120102 0304050CB10810910101 0111012657075808590C OPA10810910101011101 20102030405060WIC108 109101010111012Param eters505560657075808 590AccuracyWSC108109 101010111012Paramete rs510152025MultiRC10 8109101010111012Para meters5055606570RTE1 08109101010111012Par ameters7075808590ReC oRDOPTGPTPaLMChinchi llaGopherEleutherJur assic 10810910101011101230 4050607080AccuracyHe llaSwag1081091010101 1101262.565.067.570. 072.575.077.580.082. 5StoryCloze108109101 01011101262.565.067. 570.072.575.077.580. 082.5PIQA10810910101 01110124045505560657 0ARC (Easy)10810910101011 10123035404550Accura cyARC (Challenge)108109101 0101110123540455055O penBookQA10810910101 01110125055606570758 0Winogrande108109101 01011101260657075808 590Winograd108109101 01011101250556065707 58085AccuracyBoolQ10 81091010101110120102 0304050CB10810910101 0111012657075808590C OPA10810910101011101 20102030405060WIC108 109101010111012Param eters505560657075808 590AccuracyWSC108109 101010111012Paramete rs510152025MultiRC10 8109101010111012Para meters5055606570RTE1 08109101010111012Par ameters7075808590ReC oRDOPTGPTPaLMChinchi llaGopherEleutherJur assic 0.04
英語(論文から抽出)日本語訳スコア
Figure 7: Multishot-shot NLP Evaluations. 図7:マルチショットNLP評価。 0.76
Full evaluations on all 16 NLP tasks, with comparisons to the GPT-3 reported performance. 16個のnlpタスクの完全な評価と、gpt-3が報告した性能との比較。 0.55
As with zero-shot, performance is roughly similar for most tasks, with some tasks demonstrating erratic behavior. ゼロショットと同様、パフォーマンスはたいていのタスクでほぼ同じで、いくつかのタスクは不規則な振る舞いを示している。
訳抜け防止モード: ゼロショットと同様に、ほとんどのタスクではパフォーマンスはほぼ同じです。 過激な行動を示すタスクもあります
0.57
10810910101011101230 4050607080AccuracyHe llaSwag1081091010101 110126570758085Story Cloze108109101010111 01262.565.067.570.07 2.575.077.580.082.5P IQA10810910101011101 24045505560657075ARC (Easy)10810910101011 1012253035404550Accu racyARC (Challenge)108109101 01011101235404550556 065OpenBookQA1081091 01010111012505560657 075Winogrande1081091 01010111012606570758 08590Winograd1081091 01010111012455055606 57075AccuracyBoolQ10 81091010101110120204 06080CB1081091010101 11012657075808590COP A1081091010101110120 1020304050WIC1081091 01010111012Parameter s505560657075Accurac yWSC1081091010101110 12Parameters51015202 530MultiRC1081091010 10111012Parameters50 55606570RTE108109101 010111012Parameters7 075808590ReCoRDShot0 132SeriesOPTGPT 10810910101011101230 4050607080AccuracyHe llaSwag1081091010101 110126570758085Story Cloze108109101010111 01262.565.067.570.07 2.575.077.580.082.5P IQA10810910101011101 24045505560657075ARC (Easy)10810910101011 1012253035404550Accu racyARC (Challenge)108109101 01011101235404550556 065OpenBookQA1081091 01010111012505560657 075Winogrande1081091 01010111012606570758 08590Winograd1081091 01010111012455055606 57075AccuracyBoolQ10 81091010101110120204 06080CB1081091010101 11012657075808590COP A1081091010101110120 1020304050WIC1081091 01010111012Parameter s505560657075Accurac yWSC1081091010101110 12Parameters51015202 530MultiRC1081091010 10111012Parameters50 55606570RTE108109101 010111012Parameters7 075808590ReCoRDShot0 132SeriesOPTGPT 0.05
英語(論文から抽出)日本語訳スコア
B Contributions Pre-training • Initial planning: Susan Zhang b 貢献 予習 ※初期計画:スーザン・張 0.52
• Training infrastructure and initial ablations: Naman Goyal, Myle Ott, Stephen Roller, Sam Shleifer, • トレーニングインフラストラクチャと初期アブレーション:naman goyal、myle ott、stephen roller、sam shleifer。 0.51
Susan Zhang • Training efficiency: Naman Goyal, Myle Ott, Sam Shleifer スーザン・張 •訓練効率:ナマン・ゴーヤル、マイル・オット、サム・シュライファー 0.61
• Data curation and deduplication: Shuhoi Chen, Myle Ott, Stephen Roller •データのキュレーションと重複:shuhoi chen、myle ott、stephen roller 0.60
• Training and monitoring OPT-175B: Mikel Artetxe, Moya Chen, Naman Goyal, Punit Singh Koura, • OPT-175B:Mikel Artetxe, Moya Chen, Naman Goyal, Punit Singh Koura 0.36
Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Stephen Roller, Susan Zhang Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Stephen Roller, Susan Zhang 0.42
• Training 125M–30B baselines: Naman Goyal, Stephen Roller, Susan Zhang •125M-30Bベースライントレーニング:Naman Goyal、Stephen Roller、Susan Zhang 0.80
Evaluations • NLP: Xian Li, Xi Victoria Lin, Todor Mihaylov, Stephen Roller, Anjali Sridhar 評価 •NLP:Xian Li、Xi Victoria Lin、Todor Mihaylov、Stephen Roller、Anjali Sridhar 0.56
• Dialogue: Stephen Roller ※対話:スティーブン・ローラー 0.60
• Responsible AI Evaluations: Punit Singh Koura, Stephen Roller, Tianlu Wang •責任あるAI評価:Punit Singh Koura、Stephen Roller、Tianlu Wang 0.82
Paper writing: Moya Chen, Stephen Roller, Luke Zettlemoyer, Susan Zhang 寄稿: Moya Chen, Stephen Roller, Luke Zettlemoyer, Susan Zhang 0.38
Code release preparation: Christopher Dewan, Susan Zhang コードリリースの準備: Christopher Dewan, Susan Zhang 0.90
Responsible AI conduct: Mona Diab, Susan Zhang 責任あるAI行動:モナ・ディアブ、スーザン・チャン 0.60
C Datasheet We follow the recommendations of Gebru et al (2021) and provide a data card for the dataset used to train the OPT models. C データシート 我々は、Gebru et al (2021) の勧告に従い、OPTモデルのトレーニングに使用されるデータセットのデータカードを提供する。 0.77
C.1 Motivation • For what purpose was the dataset created? C.1 動機 • データセットはどのような目的で作成されたのか? 0.51
Was there a specific task in mind? 特定のタスクを念頭に置いていましたか? 0.57
Was there a specific gap that needed to be filled? 埋める必要がある特定のギャップがありましたか? 0.71
Please provide a description. 説明をお願いします。 0.66
The pre-training data for training the OPT-175B model was created by a union of five datasets, including three datasets used by RoBERTa (Liu et al , 2019b), a subset of the Pile (Gao et al , 2021a), along with the Pushshift.io Reddit dataset that was developed in (Baumgartner et al , 2020) and processed in (Roller et al , 2021). opt-175bモデルのトレーニングのための事前トレーニングデータは、roberta(liu et al , 2019b)が使用する3つのデータセットと、pushshift.io redditデータセット(baumgartner et al , 2020)で開発され処理された(roller et al , 2021)。
訳抜け防止モード: OPT-175Bモデルのトレーニングのための事前トレーニングデータは、5つのデータセットの結合によって作成された。 RoBERTa (Liu et al, 2019b )が使用する3つのデータセットを含む。 パイルの部分集合(Gao et al, 2021a ) Pushshift.ioのRedditデータセットとともに(Baumgartner et al, 2020)開発された。 そして、(Roller et al , 2021 )で処理した。
0.70
These purpose of creating this dataset was to pre-train the language model on a broad corpus of text, with emphasis on human-generated text. このデータセットの作成の目的は、人間の生成したテキストに重点を置き、幅広いテキストコーパスで言語モデルを事前学習することであった。 0.66
• Who created the dataset (e g , which team, research group) and on behalf of which entity (e g , • 誰がデータセット(例えば、どのチーム、研究グループ)を作成し、どのエンティティ(例えば、どのチームか)を代表します。 0.69
company, institution, organization)? 会社、機関、組織)? 0.68
Meta AI. • Who funded the creation of the dataset? メタAI。 •誰がデータセットの作成に資金を提供したのか? 0.60
If there is an associated grant, please provide the 関連する助成金がある場合は、ご提供ください。 0.62
name of the grantor and the grant name and number. 付与者の氏名と付与者名と番号 0.51
Meta AI. • Any other comments? メタAI。 • 他にコメントはありますか? 0.61
No. いいえ。 0.77
英語(論文から抽出)日本語訳スコア
C.2 Composition • What do the instances that comprise the dataset represent (e g , documents, photos, people, countries)? C.2 構成 •データセットを構成するインスタンス(例えば、ドキュメント、写真、人、国)は、何を表していますか? 0.54
Are there multiple types of instances (e g , movies, users, and ratings; people and interactions between them; nodes and edges)? さまざまなタイプのインスタンス(映画、ユーザ、評価、人々とそれらの間のインタラクション、ノードとエッジなど)がありますか? 0.72
Please provide a description. 説明をお願いします。 0.66
The instances are textual documents. インスタンスはテキストドキュメントです。 0.56
The overall dataset is composed from a union of the following datasets: データセット全体は以下のデータセットの結合から構成される。 0.77
– BookCorpus (Zhu et al , 2015) consists of more than 10K unpublished books – CC-Stories (Trinh and Le, 2018) contains a subset of CommonCrawl data filtered to match the – BookCorpus (Zhu et al , 2015)は10万冊以上の未発表書籍で構成されている – CC-Stories (Trinh and Le, 2018) には,マッチングにフィルタされたCommonCrawlデータのサブセットが含まれている。 0.69
story-like style of Winograd schemas winogradスキーマのストーリーライクなスタイル 0.76
– The Pile (Gao et al , 2021a) from which the following was included: – 以下を含むパイル(Gao et al , 2021a) 0.54
* Pile-CC * OpenWebText2 * USPTO * Project Gutenberg * OpenSubtitles * Wikipedia * DM Mathematics * HackerNews 関連スポンサーコンテンツ * pile-cc * openwebtext2 * uspto * project gutenberg * opensubtitles * wikipedia * dm mathematics * hackernews 0.72
– Pushshift.io Reddit dataset that was developed in Baumgartner et al (2020) and processed in – Pushshift.io Reddit データセットを Baumgartner et al (2020) で開発し,処理した。 0.84
Roller et al (2021). ローラーとアル(2021年)。 0.64
– CCNewsV2 containing an updated version of the English portion of the CommonCrawl News -CCNewsV2はCommonCrawl Newsの英語部分のアップデート版を含む。 0.83
dataset that was used in RoBERTa (Liu et al , 2019b) RoBERTa (Liu et al , 2019b)で使用されたデータセット 0.86
• How many instances are there in total (of each type, if appropriate)? • 合計で何つのインスタンスがあるか(それぞれの型が適切であれば)? 0.84
The training data contains 180B tokens corresponding to 800 GB of data. 訓練データには 180Bトークンは800GBのデータに対応する。 0.71
• Does the dataset contain all possible instances or is it a sample (not necessarily random) of instances from a larger set? •データセットには可能なすべてのインスタンスが含まれているのか、それとも、より大きなセットからインスタンスのサンプル(必ずしもランダムではない)なのか? 0.61
If the dataset is a sample, then what is the larger set? もしデータセットがサンプルなら、もっと大きなデータセットは何ですか? 0.80
Is the sample representative of the larger set (e g , geographic coverage)? サンプルは、より大きな集合(例えば、地理的カバレッジ)の代表ですか? 0.77
If so, please describe how this representativeness was validated/verified. もしそうなら、この代表性がどのように検証/検証されたかを説明してください。 0.44
If it is not representative of the larger set, please describe why not (e g , to cover a more diverse range of instances, because instances were withheld or unavailable). より大きなセットを代表していない場合は、なぜそうしないのかを説明してください(インスタンスが保持できない、あるいは使用できないため、より多様なインスタンスをカバーするなど)。 0.63
The CC-stories dataset contains a subset of CommonCrawl data filtered to match the story-like style of Winograd schemas. CC-storiesデータセットには、Winogradスキーマのストーリーライクなスタイルに合わせてフィルタされたCommonCrawlデータのサブセットが含まれている。 0.58
The remainder of the dataset was collected from the above sources, reformatted, and deduplicated. データセットの残りは上記のソースから収集され、再構成され、重複した。 0.71
• What data does each instance consist of? • 各インスタンスはどのデータで構成されていますか? 0.68
“Raw” data (e g , unprocessed text or images) or あるいは“Raw”データ(例:未処理のテキストや画像) 0.78
features? In either case, please provide a description. 特徴? いずれの場合も説明をお願いします。 0.74
Each instance consists of raw text data. 各インスタンスは生のテキストデータで構成される。 0.65
• Is there a label or target associated with each instance? • 各インスタンスに関連付けられたラベルやターゲットはありますか? 0.79
If so, please provide a description. もしそうなら、説明してください。 0.75
No. • Is any information missing from individual instances? いいえ。 • 個々のインスタンスに欠けている情報はありますか? 0.72
If so, please provide a description, explaining why this information is missing (e g , because it was unavailable). もしそうなら、この情報が欠落している理由(例えば、利用できないため)を説明する説明をしてください。 0.76
This does not include intentionally removed information, but might include, e g , redacted text. これは意図的に削除された情報を含まないが、例えば、修正されたテキストを含むかもしれない。 0.58
No. • Are relationships between individual instances made explicit (e g , users’ movie ratings, social network links)? いいえ。 •個々のインスタンス間の関係(例えば、ユーザーの映画視聴率、ソーシャルネットワークリンク)は明確か? 0.79
If so, please describe how these relationships are made explicit. もしそうなら、これらの関係がどのように明確化されるかを説明してください。 0.48
There are no explicit relationships between individual instances. 個々のインスタンス間に明確な関係はない。 0.62
• Are there recommended data splits (e g , training, development/validati on, testing)? • 推奨データ分割(トレーニング、開発/検証、テストなど)は存在するか? 0.83
If so, please provide a description of these splits, explaining the rationale behind them. もしそうなら、これらの分割について説明し、それらの背後にある根拠を説明してください。 0.57
We hold out a random validation set of approximately 200MB from the pretraining data, sampled proportionally to each dataset’s size in the pretraining corpus. プレトレーニングコーパス内のデータセットのサイズに比例してサンプリングしたプレトレーニングデータから,約200MBのランダムな検証セットを出力する。 0.80
英語(論文から抽出)日本語訳スコア
• Are there any errors, sources of noise, or redundancies in the dataset? •データセットにはエラー、ノイズの発生源、冗長性はありますか? 0.86
If so, please provide a description. もしそうなら、説明してください。 0.75
Outside of naturally occurring duplication from potential overlaps between the datasets, there are no other redundancies, errors, or sources of noise that we add. データセット間の潜在的な重複から自然に発生する重複以外に、私たちが追加するノイズの冗長性、エラー、ソースはありません。 0.73
• Is the dataset self-contained, or does it link to or otherwise rely on external resources (e g , • データセットは自己完結しているか、外部リソース(例えば、)にリンクするか、あるいは依存しているか。
訳抜け防止モード: • データセットは自己格納されているか、またはリンクされているか? 外部リソース(例えば
0.86
websites, tweets, other datasets)? ウェブサイト、ツイート、その他のデータセット)? 0.76
It’s self-contained. • Does the dataset contain data that, if viewed directly, might be offensive, insulting, threatening, or might otherwise cause anxiety? 自己完結型だ。 データセットには、直接見た場合、攻撃的、侮辱的、脅迫的、あるいは不安を引き起こす可能性のあるデータが含まれていますか? 0.50
If so, please describe why. もしそうなら、その理由を説明してください。 0.53
Parts of the dataset are a subset of public Common Crawl data, along with a subset of public Reddit data, which could contain sentences that, if viewed directly, might be offensive, insulting, threatening, or might otherwise cause anxiety. データセットの一部は、公開のCommon Crawlデータのサブセットであり、公開Redditデータのサブセットである。
訳抜け防止モード: データセットの一部は、パブリックなCommon Crawlデータのサブセットです。 公開Redditデータのサブセットとともに、その文章を含むことができる。 直接見れば 攻撃的で侮辱的で 脅かされ 不安を引き起こすかもしれません
0.68
• Does the dataset relate to people? •データセットは人に関するものなのか? 0.68
If not, you may skip the remaining questions in this section. そうでない場合は、このセクションの残りの質問をスキップできます。 0.71
Some documents of this data relate to people, such as news articles, Wikipedia descriptions, etc. このデータの文書の中には、ニュース記事やウィキペディアの記述など、人々に関連するものもある。 0.78
• Does the dataset identify any subpopulations (e g , by age, gender)? • データセットは、どんなサブ人口(例えば、年齢、性別)を識別しますか? 0.77
If so, please describe how these subpopulations are identified and provide a description of their respective distributions within the dataset. もしそうなら、これらのサブポピュレーションがどのように特定され、データセット内のそれぞれの分布が記述されるかを説明してください。 0.58
No, the dataset does not explicitly include subpopulation identification. データセットには、サブポピュレーションの識別が明示的に含まれていない。 0.53
• Any other comments? • 他にコメントはありますか? 0.62
No. C.3 Collection Process いいえ。 C.3 収集 0.55
• How was the data associated with each instance acquired? • 各インスタンスに関連するデータはどのように取得されましたか? 0.68
Was the data directly observable (e g , raw text, movie ratings), reported by subjects (e g , survey responses), or indirectly inferred/ derived from other data (e g , part-of-speech tags, model-based guesses for age or language)? データは直接観測可能(原文、映画評価など)か、被験者が報告した(調査回答など)か、間接的に他のデータから推論/派生したもの(一部音声タグ、年齢や言語に関するモデルベースの推測など)か? 0.78
If data was reported by subjects or indirectly inferred/derived from other data, was the data validated/verified? 被験者がデータを報告したり、他のデータから間接的に推論/派生した場合、そのデータは検証/検証されましたか? 0.52
If so, please describe how. もしそうなら、どのように説明してください。 0.58
N/A. The dataset is a union of five publicly available datasets. N/A。 データセットは5つの公開データセットの結合である。 0.69
• What mechanisms or procedures were used to collect the data (e g , hardware apparatus or sensor, manual human curation, software program, software API)? •データ収集のメカニズムや手順(ハードウェア機器やセンサー、手動の人的キュレーション、ソフトウェアプログラム、ソフトウェアapiなど)はどのようなものでしたか? 0.78
How were these mechanisms or procedures validated? これらのメカニズムや手順はどのように検証されましたか? 0.50
The data was downloaded from the internet. データはインターネットからダウンロードされた。 0.82
• If the dataset is a sample from a larger set, what was the sampling strategy (e g , deterministic, probabilistic with specific sampling probabilities)? • データセットがより大きな集合からのサンプルである場合、サンプリング戦略(例えば、決定論的、特定のサンプリング確率を持つ確率的)は何か。 0.86
Please see previous answers for how the dataset was created. データセットの作成方法に関する以前の回答をご覧ください。 0.64
• Who was involved in the data collection process (e g , students, crowdworkers, contractors) and how were they compensated (e g , how much were crowdworkers paid)? •データ収集プロセス(学生、群集労働者、請負業者など)には誰が関与し、どのように補償されたか(群集労働者はいくら支払ったか)? 0.83
This data is mined, filtered and sampled by machines. このデータはマイニングされ、フィルタリングされ、マシンによってサンプリングされる。 0.57
• Over what timeframe was the data collected? • データが収集された時間枠は? 0.84
Does this timeframe match the creation timeframe of the data associated with the instances (e g , recent crawl of old news articles)? このタイムフレームは、インスタンスに関連するデータ(例えば、最近の古いニュース記事のクロール)の生成時間フレームと一致しますか? 0.79
If not, please describe the timeframe in which the data associated with the instances was created. そうでない場合は、インスタンスに関連するデータが作成された時間枠を説明してください。 0.73
The CC-News dataset contains English news articles crawled between September 2016 and September 2021. cc-newsデータセットには、2016年9月から2021年9月までの英語ニュース記事が含まれている。 0.51
• Does the dataset relate to people? •データセットは人に関するものなのか? 0.68
If not, you may skip the remainder of the questions in this そうでない場合は、残りの質問をスキップしてもよいでしょう。 0.70
section. No. セクション。 いいえ。 0.71
• Did you collect the data from the individuals in question directly, or obtain it via third parties •質問者のデータを直接収集するか、第三者から入手したか。 0.71
or other sources (e g , websites)? それとも他のソース(例えばウェブサイト)? 0.80
N/A. • Were the individuals in question notified about the data collection? N/A。 ・データ収集について問い合わせた個人はいましたか。 0.68
If so, please describe (or show with screenshots or other information) how notice was provided, and provide a link or other access point to, or otherwise reproduce, the exact language of the notification itself. もしそうなら、通知がどのように提供されたかを説明(またはスクリーンショットや他の情報で示す)し、通知自体の正確な言語に対するリンクまたは他のアクセスポイントを提供する。 0.78
N/A. N/A。 0.66
英語(論文から抽出)日本語訳スコア
• Did the individuals in question consent to the collection and use of their data? •問題の個人は、データの収集と利用に同意しましたか? 0.78
If so, please describe (or show with screenshots or other information) how consent was requested and provided, and provide a link or other access point to, or otherwise reproduce, the exact language to which the individuals consented. もしそうなら、どのように同意が要求され提供されたかを説明(またはスクリーンショットや他の情報で示)し、個人が同意した正確な言語へのリンクまたは他のアクセスポイントを提供する。 0.75
N/A. • If consent was obtained, were the consenting individuals provided with a mechanism to revoke their consent in the future or for certain uses? N/A。 ※同意が得られた場合、同意者は、将来、または特定の使用のために同意を取り消すメカニズムを与えられたか。 0.62
If so, please provide a description, as well as a link or other access point to the mechanism (if appropriate). もしそうなら、(適切であれば)メカニズムへのリンクや他のアクセスポイントと同様に、説明を提供してください。 0.81
N/A. • Has an analysis of the potential impact of the dataset and its use on data subjects (e g , a data protection impact analysis) been conducted? N/A。 •データセットの潜在的な影響とそのデータ課題(例えば、データ保護影響分析)に対する使用に関する分析が行われていますか? 0.78
If so, please provide a description of this analysis, including the outcomes, as well as a link or other access point to any supporting documentation. もしそうなら、結果を含むこの分析の説明や、サポートするドキュメントへのリンクやその他のアクセスポイントを提供してください。 0.74
Some toxicity and bias evaluations were performed. 毒性やバイアス評価も行われた。 0.69
Please refer to the main document and the model card for these details. これらの詳細は、メインドキュメントとモデルカードを参照してください。 0.73
• Any other comments? • 他にコメントはありますか? 0.62
No. C.4 Preprocessing/cleani ng/labeling いいえ。 C.4 前処理/クリーニング/ラベル付け 0.54
• Was any preprocessing/cleani ng/labeling of the data done (e g , discretization or bucketing, tokenization, part-of-speech tagging, SIFT feature extraction, removal of instances, processing of missing values)? •データのプリプロセッシング/クリーニング/ラベル(例えば、離散化やバケット化、トークン化、part-of-speech tagging、sift feature extraction、インスタンスの削除、欠落した値の処理)は行われましたか? 0.69
If so, please provide a description. もしそうなら、説明してください。 0.75
If not, you may skip the remainder of the questions in this section. そうでない場合は、このセクションの残りの質問をスキップすることができる。 0.71
The component datasets went through standard cleaning and re-formatting practices, including removing repetitive/non-infor mative text like “Chapter One,” or “This ebook by Project Gutenberg.” コンポーネントデータセットは、"Chapter One"や"Project Gutenbergによるこの電子書籍"といった反復的/非形式的テキストの削除など、標準的なクリーニングと再フォーマットのプラクティスを経た。 0.57
• Was the “raw” data saved in addition to the preprocessed/cleaned /labeled data (e g , to support unanticipated future uses)? データは、事前処理/クリーニング/ラベル付きデータ(例えば、予期しない将来的な使用をサポートするために)に加えて保存されましたか? 0.61
If so, please provide a link or other access point to the “raw” data. もしそうなら、“raw”データのリンクや他のアクセスポイントを提供してください。 0.80
The “raw” component datasets is publicly available in their respective locations (more details can be seen in the respective papers linked in references). raw”コンポーネントデータセットはそれぞれの場所で公開されている(参照でリンクされた各論文で詳細が確認できる)。 0.72
• Any other comments? • 他にコメントはありますか? 0.62
No. C.5 Uses いいえ。 C.5 利用 0.61
• Has the dataset been used for any tasks already? • データセットは、すでに何らかのタスクに使われていますか? 0.58
If so, please provide a description. もしそうなら、説明してください。 0.75
Yes, this dataset was used to pre-train the OPT models. はい、これ データセットはOPTモデルの事前トレーニングに使用された。 0.70
• Is there a repository that links to any or all papers or systems that use the dataset? • データセットを使用する何らかの論文やシステムへのリンクを持つリポジトリはありますか? 0.79
If so, please provide a link or other access point. もしそうなら、リンクや他のアクセスポイントを提供してください。 0.74
https://github.com/f acebookresearch/ metaseq https://github.com/f acebookresearch/ metaseq 0.25
• What (other) tasks could the dataset be used for? • データセットはどんな(他の)タスクに使えるのか? 0.86
This data can be used to pre-train language このデータは事前訓練言語に使用できる 0.81
models, which are foundation to many current and future language tasks. 多くの現在および将来の言語タスクの基礎となるモデルです。 0.81
• Is there anything about the composition of the dataset or the way it was collected and preprocessed/cleaned /labeled that might impact future uses? • データセットの構成や収集方法や、将来の使用に影響を及ぼす可能性のあるプリプロセス/クリーニング/ラベルについて何かありますか? 0.62
For example, is there anything that a future user might need to know to avoid uses that could result in unfair treatment of individuals or groups (e g , stereotyping, quality of service issues) or other undesirable harms (e g , financial harms, legal risks) If so, please provide a description. 例えば、将来のユーザが、個人やグループの不公平な扱い(例えば、ステレオタイプ、サービス品質の問題)やその他の望ましくない損害(例えば、財政的損害、法的リスク)を避けるために知っておく必要があることはありますか?
訳抜け防止モード: 例えば、将来ユーザーが利用を避けるために知っておくべきことがあれば、個人やグループの不公平な扱いに繋がることがあるだろうか。 (例:ステレオタイピング、サービス品質) または、他の望ましくない害(例えば、金銭的損害、法的リスク) 説明をお願いします。
0.67
Is there anything a future user could do to mitigate these undesirable harms? この望ましくない被害を軽減するために、将来ユーザーができることはありますか? 0.67
The pipeline for creating this dataset paves a way for building a scalable infrastructure for mining datasets. このデータセットを作成するためのパイプラインは、データセットをマイニングするためのスケーラブルなインフラストラクチャを構築する方法である。 0.61
• Are there tasks for which the dataset should not be used? • データセットを使用すべきでないタスクはありますか? 0.86
If so, please provide a description. もしそうなら、説明してください。 0.75
None that we are currently aware of. 現在我々が知っているものはない。 0.75
• Any other comments? • 他にコメントはありますか? 0.62
No. いいえ。 0.77
英語(論文から抽出)日本語訳スコア
C.6 Distribution • Will the dataset be distributed to third parties outside of the entity (e g , company, institution, organization) on behalf of which the dataset was created? C.6 流通 •データセットは、データセットが作成されたエンティティ(例えば、企業、機関、組織)以外の第三者に配布されますか? 0.54
If so, please provide a description. もしそうなら、説明してください。 0.75
Not at this time. 現時点ではそうではない。 0.54
• How will the dataset will be distributed (e g , tarball on website, API, GitHub)? • データセットはどのように分散されますか(例えば、Webサイト、API、GitHubでtarball)? 0.83
Does the dataset have a digital object identifier (DOI)? ですか? データセットはデジタルオブジェクト識別子(doi)を持つか? 0.62
N/A. • When will the dataset be distributed? N/A。 •データセットはいつ配布されますか? 0.69
N/A. • Will the dataset be distributed under a copyright or other intellectual property (IP) license, and/or under applicable terms of use (ToU)? N/A。 • データセットは著作権または他の知的財産(ip)ライセンスの下で配布されるか、/または適用可能な利用規約(tou)の下で配布されるか?
訳抜け防止モード: N/A。 •データセットは著作権その他の知的財産権(IP)ライセンスの下で配布されますか? および/または適用可能な使用条件 (ToU )?
0.72
If so, please describe this license and/or ToU, and provide a link or other access point to, or otherwise reproduce, any relevant licensing terms or ToU, as well as any fees associated with these restrictions. もしそうなら、このライセンスおよび/またはtouを説明し、関連するライセンス条項またはtouに対するリンクまたは他のアクセスポイント、およびこれらの制限に関連する手数料を提供する。 0.71
N/A. • Do any export controls or other regulatory restrictions apply to the dataset or to individual instances? N/A。 • データセットや個々のインスタンスに対して,エクスポートコントロールやその他の規制制限は適用されますか? 0.69
If so, please describe these restrictions, and provide a link or other access point to, or otherwise reproduce, any supporting documentation. もしそうなら、これらの制限を説明し、サポート対象のドキュメントへのリンクや他のアクセスポイントを提供してください。 0.69
N/A. • Any other comments? N/A。 • 他にコメントはありますか? 0.64
No. C.7 Maintenance いいえ。 C.7 保守 0.54
• Who is supporting/hosting/m aintaining the dataset? • データセットのサポート/ホスト/メンテナンスは誰か? 0.53
Meta AI. • How can the owner/curator/manage r of the dataset be contacted (e g , email address)? メタAI。 • データセットの所有者/キュレーター/マネージャが(eメールアドレスなど)どのように接触するか? 0.66
Refer to the main document. 参照 メインの文書に 0.61
• Is there an erratum? • erratum はあるか? 0.79
If so, please provide a link or other access point. もしそうなら、リンクや他のアクセスポイントを提供してください。 0.74
N/A. • Will the dataset be updated (e g , to correct labeling errors, add new instances, delete instances)? N/A。 •データセットは更新されるか(例えば、ラベルエラーの修正、新しいインスタンスの追加、インスタンスの削除など)? 0.74
If so, please describe how often, by whom, and how updates will be communicated to users (e g , mailing list, GitHub)? もしそうなら、どの頻度で、誰によって、どのようにアップデートがユーザー(例えば、メーリングリスト、github)に伝達されるのかを説明してください。
訳抜け防止モード: もしそうなら、誰がどのくらいの頻度で そして、ユーザ(例えば、メーリングリスト、GitHubなど)にどのようにアップデートが伝達されるか?
0.81
No current plan for updating. 現在の更新計画はない。 0.87
• If the dataset relates to people, are there applicable limits on the retention of the data associated with the instances (e g , were individuals in question told that their data would be retained for a fixed period of time and then deleted)? • データセットが人に関連する場合、インスタンスに関連するデータの保持に該当する制限があるか(例えば、個人は、そのデータが一定期間保持され、削除されるか)。
訳抜け防止モード: • データセットが人々に関連している場合、インスタンスに関連するデータの保持には適用可能な制限があるか? (例えば、対象の個人は、一定期間データを保持し、その後削除するように言われたか?)
0.86
If so, please describe these limits and explain how they will be enforced. もしそうなら、これらの制限を説明し、どのように実施されるかを説明してください。 0.59
N/A. • Will older versions of the dataset continue to be supported/hosted/mai ntained? N/A。 • 古いバージョンのデータセットは引き続きサポート、ホスト、保守されますか? 0.65
If so, please describe how. もしそうなら、どのように説明してください。 0.58
If not, please describe how its obsolescence will be communicated to users. そうでない場合は、その控えめさがユーザにどのように伝えられるか説明してください。 0.43
N/A. • If others want to extend/augment/build on/contribute to the dataset, is there a mechanism for them to do so? N/A。 • データセットの拡張/拡張/ビルド/コントリビュートしたい人には、それを行うためのメカニズムがありますか? 0.66
If so, please provide a description. もしそうなら、説明してください。 0.75
Will these contributions be validated/ verified? これらのコントリビューションは検証/検証されるか? 0.50
If so, please describe how. もしそうなら、どのように説明してください。 0.58
If not, why not? なぜそうでないのか? 0.71
Is there a process for communicating/ distributing these contributions to other users? これらの貢献を他のユーザに伝達/配布するプロセスはありますか? 0.68
If so, please provide a description. もしそうなら、説明してください。 0.75
No mechanism is available right now. 現在、メカニズムは提供されていない。 0.63
• Any other comments? • 他にコメントはありますか? 0.62
No. D Model Card いいえ。 Dモデルカード 0.78
Following Mitchell et al (2018), we provide a model card for OPT-175B. Mitchell et al (2018) に続いて, OPT-175B のモデルカードを提供する。 0.82
英語(論文から抽出)日本語訳スコア
D.1 Model Details D.1 モデルの詳細 0.54
• Person or organization developing model: OPT-175B was developed by Meta AI. •人・組織開発モデル: OPT-175BはMeta AIによって開発された。 0.65
• Model date: OPT-175B was released on May 3, 2022. •モデル日付:OPT-175Bは2022年5月3日にリリースされた。 0.61
• Model version: OPT-175B described in this paper is version 1.0.0. • モデルバージョン: opt-175b はバージョン 1.0.0 である。 0.69
• Model type: OPT-175B is a large decoder-only transformer language model. モデルタイプ: OPT-175B はデコーダのみのトランスフォーマー言語モデルである。 0.74
• Information about training algorithms, parameters, fairness constraints or other applied approaches, and features: OPT-175B was trained with AdamW for parameter sizes from 125M to 175B. • トレーニングアルゴリズム,パラメータ,公平性制約,その他の適用方法,その他の特徴: OPT-175Bはパラメータサイズ125Mから175BのAdamWでトレーニングされた。 0.78
See the Data Card (Appendix C) for information about training data and Section 2.2 - 2.5 for information about the training process. トレーニングデータに関する情報はData Card (Appendix C)、トレーニングプロセスに関する情報は2.2 - 2.5を参照。 0.86
• Paper or other resource for more information: See the rest of this paper for more details on OPT-175B as well as the corresponding post on the Meta AI Research Blog. 詳細は、OPT-175Bの他、Meta AI Research Blogの対応する記事を参照してください。 0.34
More details are also available in metaseq, our open-source repository.12 詳細はオープンソースリポジトリである metaseq でも確認できます。 0.63
• License: OPT-175B and the smaller baseline models are made available through a non-commercial • ライセンス: opt-175b およびより小型のベースラインモデルは非商用で利用可能 0.85
use license agreement provided in our model license.13 モデルライセンスの 使用ライセンス契約書13 0.72
• Where to send questions or comments about the model: Please contact the corresponding authors {susanz,roller,namang oyal}@fb.com for any questions or comments. モデルに関する質問やコメントの送信先: 対応する著者 {susanz,roller,namang oyal}@fb.com に問い合わせてください。
訳抜け防止モード: •モデルに関する質問やコメントを送る場所: susanz,roller,namang oyal}@fb.comに質問やコメントがあれば連絡してください。
0.72
D.2 Intended Use • Primary intended uses: We release OPT-175B for research into Language Models, especially as it pertains to Responsible AI. D.2 利用意図 • 第一目的の用途: 言語モデル、特に責任あるAIに関する研究のためのOPT-175Bをリリースする。 0.65
See Section 6 for more detailed Considerations for Release. リリースの詳細については、セクション6を参照してください。 0.60
Information on how to use the model can be found at metaseq, our open-source repository. このモデルの使用方法に関する情報は、当社のオープンソースリポジトリであるMetaseqで確認できます。 0.63
• Primary intended users: We primarily target researchers and the related research community. •主目的ユーザ:主に研究者および関連研究コミュニティを対象としている。 0.82
• Out-of-scope use cases: OPT-175B is not released for production use or real-world deployments. • スコープ外ユースケース: opt-175b は実運用や実運用ではリリースされない。 0.58
As we note in Section 5, OPT-175B, like similar large language models, has a variety of shortcomings that make it premature for commercial use. 第5節で述べたように、op-175bは、同様の大きな言語モデルと同様に、商用利用に早すぎる様々な欠点がある。 0.70
D.3 Data, Limitations, and Recommendations D.3 データ、制限、推奨事項 0.51
• Data selection for training: Training data for OPT-175B was selected based on a combination of breadth and availability. • トレーニング用データ選択: OPT-175B のトレーニングデータを幅と可用性の組み合わせで選択した。 0.86
See our Data Card (Appendix C) for more detailed information on the data used to train our model. モデルのトレーニングに使用されるデータの詳細は、私たちのデータカード(appendix c)を参照してください。 0.78
• Data selection for evaluation: Evaluations in this paper were chosen to provide comparable performance assessments relative to similar scale models in the literature. • 評価のためのデータ選択: 文献における類似のスケールモデルと比較して, 同等の性能評価を提供するために, 本論文の評価が選ばれた。 0.72
Given concerns in the community around safety and fairness of large language models in general, we also explicitly provide evaluations on Responsible AI (see Section 4). 大規模な言語モデルの安全性と公平性に関するコミュニティの懸念から、責任あるaiに関する評価も明示的に提供します(セクション4参照)。 0.72
• Limitations: Like other large language models for which the diversity (or lack thereof) of training data induces downstream impact on the quality of our model, OPT-175B has limitations in terms of bias and safety. • 制限:トレーニングデータの多様性(またはその欠如)がモデルの品質に下流の影響をもたらす他の大きな言語モデルと同様に、op-175bはバイアスと安全性に関して制限があります。 0.83
OPT-175B can also have quality issues in terms of generation diversity and hallucination. OPT-175Bは、世代多様性と幻覚の点で品質の問題も抱える。 0.62
In general, OPT-175B is not immune from the plethora of issues that plague modern large language models. 一般に、OPT-175Bは現代の大言語モデルに悩まされる多くの問題に免疫がない。 0.81
By releasing with a non-commercial license, we also hope to increase communication, transparency, and study of the problems of large language models, especially in areas which may not be aligned with commercial interests. 非商用ライセンスでリリースすることで、特に商業的関心に沿わない分野において、大きな言語モデルの問題に関するコミュニケーション、透明性、研究も増やしたいと考えています。 0.72
See Section 5 for a more detailed discussion of limitations of OPT-175B. OPT-175Bの制限に関するより詳細な議論については、第5節を参照。 0.54
12https://github.com /facebookresearch/me taseq/ 13https://github.com /facebookresearch/me taseq/blob/main/proj ects/OPT/MODEL_LICEN SE. 12https://github.com /facebookresearch/me taseq/13https://gith ub.com/facebookresea rch/metaseq/blob/mai n/projects/OPT/MODEL _LICENSE 0.12
md md 0.42
英語(論文から抽出)日本語訳スコア
• Recommendations for future work: See Section 6 for more about our Considerations for Release, including a discussion of potential avenues of research enabled by opening our model to more of the research community. ・今後の研究への提言:第6節では、研究コミュニティにモデルを開放することによる研究の潜在的道筋の議論を含め、リリースに関する考察についてより詳しく述べて頂きたい。
訳抜け防止モード: • 今後の作業の推奨事項 : リリースの考慮事項については、第6節を参照のこと。 実現可能な研究の道のりについて 私たちのモデルをもっと多くの研究コミュニティに公開します。
0.77
We hope that the release of OPT-175B, as well as information around our model training process, will increase open science around both large language models in specific and natural language processing and deep learning in general. OPT-175Bのリリースと、我々のモデルトレーニングプロセスに関する情報により、特定の自然言語処理と自然言語処理の両方において、大きな言語モデルに関するオープンサイエンスが向上することを期待します。 0.75
英語(論文から抽出)日本語訳スコア
E Sample Model Outputs For all sample outputs, the initial prompt is given in bold and the remainder is the continuation. e サンプルモデルはすべてのサンプル出力に対して出力し、最初のプロンプトは太字で与えられ、残りは継続である。 0.74
These example outputs were intentionally selected to highlight both successes and failures of the OPT-175B model. これらの出力はOPT-175Bモデルの成功と失敗の両方を強調するために意図的に選択された。 0.59
Figure 8: Poetry generation. We have observed the model can write entertaining poetry on topics such as dodos, samosas, and performance reviews. 図8:詩の世代。 我々は,このモデルがドド,サモサ,パフォーマンスレビューなどの話題に面白い詩を書くことができることを見てきた。 0.70
However, we struggled to get the model to observe rhyme or meter. しかし、韻律やメートル法を観察するモデルを得るのに苦労しました。 0.56
Figure 9: Conversation generation. OPT-175B adopts a patriotic personality when prompted as the Statue of Liberty. 図9:会話の生成。 OPT-175Bは自由の女神として、愛国的な性格を採用する。 0.70
However, the model also devolves into somewhat simple and linguistically repetitive generations further into the conversation. しかし、このモデルは会話をさらにシンプルで言語的に反復的な世代へと発展させる。 0.69
英語(論文から抽出)日本語訳スコア
Figure 10: Basic few-shot translation example. 図10: 基本的な数ショットの翻訳例。 0.70
OPT was not intentionally trained to be multilingual, but we found anecdotally it has limited success with simple translations in German, Spanish, French, and Chinese. OPTは意図的に多言語化の訓練を受けていなかったが、ドイツ語、スペイン語、フランス語、中国語の簡単な翻訳では成功しなかった。 0.72
英語(論文から抽出)日本語訳スコア
Figure 11: Paper writing example. 図11: ペーパーライティングの例。 0.84
Prompting with "1. Introduction" generally yielded more interesting results compared to prompting with “Abstract.” 1.導入」のプロンプトは「抽象」のプロンプトよりも一般的に興味深い結果を得た。 0.72
Our prompt here was inspired by the first sentence of the seminal ResNet work (He et al , 2016). このプロンプトは、seminal resnet(he et al , 2016)の最初の文にインスパイアされたものです。 0.60
英語(論文から抽出)日本語訳スコア
Figure 12: Arithmetic. We observe mistakes when extending from addition to other operations. 図12: 算術。 追加操作から他の操作へ延長する際の誤りを観察する。 0.48
英語(論文から抽出)日本語訳スコア
Figure 13: Python programming. 図13: pythonプログラミング。 0.78
Simply switching out a variable name can alter the generated output. 変数名を単に切り換えれば、生成された出力を変更することができる。 0.66
                                                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。