論文の概要: Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models
- arxiv url: http://arxiv.org/abs/2206.04615v1
- Date: Thu, 9 Jun 2022 17:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 12:45:36.826736
- Title: Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models
- Title(参考訳): 模倣ゲームを超えて:言語モデルの能力の定量化と外挿
- Authors: Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb,
Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adri\`a
Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea
Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv,
Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda
Dsouza, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea
Santilli, Andreas Stuhlm\"uller, Andrew Dai, Andrew La, Andrew Lampinen, Andy
Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi,
Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul
Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin
Herrick, Avia Efrat, Aykut Erdem, Ayla Karaka\c{s}, B. Ryan Roberts, Bao
Sheng Loe, Barret Zoph, Bart{\l}omiej Bojanowski, Batuhan \"Ozyurt, Behnam
Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill
Yuchen Lin, Blake Howald, Cameron Diao, Cameron Dour, Catherine Stinson,
Cedrick Argueta, C\'esar Ferri Ram\'irez, Chandan Singh, Charles Rathkopf,
Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites,
Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez,
Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina
Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth,
Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Mosegu\'i Gonz\'alez,
Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David
Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis
Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra,
Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Ekaterina
Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes,
Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric
Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan
Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar,
Fernando Mart\'inez-Plumed, Francesca Happ\'e, Francois Chollet, Frieda Rong,
Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germ\'an Kruszewski,
Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo
Jaimovitch-L\'opez, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim,
Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry
Shevlin, Hinrich Sch\"utze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian
Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob
Hilton, Jaehoon Lee, Jaime Fern\'andez Fisac, James B. Simon, James Koppel,
James Zheng, James Zou, Jan Koco\'n, Jana Thompson, Jared Kaplan, Jarema
Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski,
Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal,
Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan
Waweru, John Burden, John Miller, John U. Balis, Jonathan Berant, J\"org
Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Jones,
Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen
Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja
Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson,
Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle
Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia
Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy
Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Col\'on, Luke Metz, L\"utfi
Kerem \c{S}enel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Madotto
Andrea, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco
Marelli, Marco Maru, Maria Jose Ram\'irez Quintana, Marie Tolkiehn, Mario
Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias
Hagen, M\'aty\'as Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin
McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy,
Michael Starritt, Michael Strube, Micha{\l} Sw\k{e}drowski, Michele
Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac
Suzgun, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini,
Mukund Varma T, Nanyun Peng, Nathan Chi, Nayeon Lee, Neta Gur-Ari Krakover,
Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nikita Nangia, Niklas
Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah
Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi,
Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale
Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy
Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr
Mi{\l}kowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing
Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel
Habacker, Ram\'on Risco Delgado, Rapha\"el Milli\`ere, Rhythm Garg, Richard
Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan
Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs,
Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan
Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam
Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman,
Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik
Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann,
Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank
Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh
Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Shyamolima (Shammie) Debnath,
Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla
Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene,
Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad,
Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana
Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq
Ali, Tatsu Hashimoto, Te-Lin Wu, Th\'eo Desbordes, Theodore Rothschild,
Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev,
Timothy Telleen-Lawton, Titus Tunduny, Tobias Gerstenberg, Trenton Chang,
Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera
Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu,
Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William
Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinyi Wu, Xudong Shen, Yadollah
Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi
Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao
Bai, Zachary Seid, Zhao Xinran, Zhuoye Zhao, Zijian Wang, Zijie J. Wang,
Zirui Wang, Ziyi Wu
- Abstract要約: 言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で442人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
- 参考スコア(独自算出の注目度): 645.0044947741055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models demonstrate both quantitative improvement and new qualitative
capabilities with increasing scale. Despite their potentially transformative
impact, these new capabilities are as yet poorly characterized. In order to
inform future research, prepare for disruptive new model capabilities, and
ameliorate socially harmful effects, it is vital that we understand the present
and near-future capabilities and limitations of language models. To address
this challenge, we introduce the Beyond the Imitation Game benchmark
(BIG-bench). BIG-bench currently consists of 204 tasks, contributed by 442
authors across 132 institutions. Task topics are diverse, drawing problems from
linguistics, childhood development, math, common-sense reasoning, biology,
physics, social bias, software development, and beyond. BIG-bench focuses on
tasks that are believed to be beyond the capabilities of current language
models. We evaluate the behavior of OpenAI's GPT models, Google-internal dense
transformer architectures, and Switch-style sparse transformers on BIG-bench,
across model sizes spanning millions to hundreds of billions of parameters. In
addition, a team of human expert raters performed all tasks in order to provide
a strong baseline. Findings include: model performance and calibration both
improve with scale, but are poor in absolute terms (and when compared with
rater performance); performance is remarkably similar across model classes,
though with benefits from sparsity; tasks that improve gradually and
predictably commonly involve a large knowledge or memorization component,
whereas tasks that exhibit "breakthrough" behavior at a critical scale often
involve multiple steps or components, or brittle metrics; social bias typically
increases with scale in settings with ambiguous context, but this can be
improved with prompting.
- Abstract(参考訳): 言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
その可能性のある変革的影響にもかかわらず、これらの新しい機能は、まだ不十分な特徴を持っている。
将来の研究を知らせ、破壊的な新しいモデル能力を準備し、社会的に有害な効果を改善するためには、現在および近未来の言語モデルの能力と限界を理解することが不可欠である。
この課題に対処するため,Beyond the Imitation Game benchmark (BIG-bench)を導入する。
BIGベンチは現在204のタスクで構成されており、132の機関で442人の著者が貢献している。
タスクのトピックは多様で、言語学、幼少期の開発、数学、常識推論、生物学、物理学、社会的偏見、ソフトウェア開発などから問題を引き出す。
BIG-benchは、現在の言語モデルの能力を超えると思われるタスクに焦点を当てている。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスフォーマーアーキテクチャ,BIGベンチ上のスイッチスタイルスパーストランスの挙動を,数百万から数十億のパラメータにわたって評価した。
さらに、人間専門家のチームが、強力なベースラインを提供するために、すべてのタスクを実行しました。
Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.
関連論文リスト
- LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。