論文の概要: Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
- arxiv url: http://arxiv.org/abs/2210.09261v1
- Date: Mon, 17 Oct 2022 17:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:21:24.248899
- Title: Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
- Title(参考訳): BIG-Benchタスクの整合性とチェーン・オブ・サードが解決できるかどうか
- Authors: Mirac Suzgun, Nathan Scales, Nathanael Sch\"arli, Sebastian Gehrmann,
Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny
Zhou, Jason Wei
- Abstract要約: 我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
- 参考スコア(独自算出の注目度): 108.54545521369688
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: BIG-Bench (Srivastava et al., 2022) is a diverse evaluation suite that
focuses on tasks believed to be beyond the capabilities of current language
models. Language models have already made good progress on this benchmark, with
the best model in the BIG-Bench paper outperforming average reported
human-rater results on 65% of the BIG-Bench tasks via few-shot prompting. But
on what tasks do language models fall short of average human-rater performance,
and are those tasks actually unsolvable by current language models?
In this work, we focus on a suite of 23 challenging BIG-Bench tasks which we
call BIG-Bench Hard (BBH). These are the task for which prior language model
evaluations did not outperform the average human-rater. We find that applying
chain-of-thought (CoT) prompting to BBH tasks enables PaLM to surpass the
average human-rater performance on 10 of the 23 tasks, and Codex
(code-davinci-002) to surpass the average human-rater performance on 17 of the
23 tasks. Since many tasks in BBH require multi-step reasoning, few-shot
prompting without CoT, as done in the BIG-Bench evaluations (Srivastava et al.,
2022), substantially underestimates the best performance and capabilities of
language models, which is better captured via CoT prompting. As further
analysis, we explore the interaction between CoT and model scale on BBH,
finding that CoT enables emergent task performance on several BBH tasks with
otherwise flat scaling curves.
- Abstract(参考訳): BIG-Bench (Srivastava et al., 2022)は、現在の言語モデルの能力を超えると思われるタスクに焦点を当てた多様な評価スイートである。
BIG-Benchの論文で最高のモデルは、BIG-Benchのタスクの65%に対して、数発のプロンプトによって報告された人為的な結果を上回っている。
しかし、言語モデルでは、平均的な人為的なパフォーマンスに欠けるタスクはどんなものなのでしょうか。
本稿では,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
これらは、以前の言語モデルの評価が平均的な人格を上回らなかったタスクである。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codex(code-davinci-002)は23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
BBHの多くのタスクは多段階の推論を必要とするため、BIG-Bench評価(Srivastava et al., 2022)で行われているように、CoTプロンプトを使わずに数発のプロンプトを行う。
さらに, BBH上でのCoTとモデルスケールの相互作用について検討し, スケーリング曲線が平坦な複数のBBHタスクにおいて, CoTが創発的なタスク性能を実現することを確認した。
関連論文リスト
- Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.48185395952788]
Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。
そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。
各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
論文 参考訳(メタデータ) (2024-06-06T17:22:08Z) - Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。
これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文 参考訳(メタデータ) (2024-05-15T11:55:14Z) - How predictable is language model benchmark performance? [0.07143413923310668]
平均ベンチマーク性能は、多くの個別タスクを集約し、計算スケールを訓練する機能として十分に予測可能であることを示す。
個々のタスクのパフォーマンスは、偶然よりもはるかに予測可能である。
論文 参考訳(メタデータ) (2024-01-09T17:34:30Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - Task Ambiguity in Humans and Language Models [7.033374427612259]
本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。
本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
論文 参考訳(メタデータ) (2022-12-20T18:35:33Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。