論文の概要: On the Advance of Making Language Models Better Reasoners
- arxiv url: http://arxiv.org/abs/2206.02336v2
- Date: Tue, 7 Jun 2022 13:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 11:34:36.366375
- Title: On the Advance of Making Language Models Better Reasoners
- Title(参考訳): 言語モデルの改良にむけて
- Authors: Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou,
Weizhu Chen
- Abstract要約: GPT-3 や PaLM のような大規模言語モデルは、数発の学習で顕著な性能を示した。
最近の進歩は、最終回答を生成する前に、言語モデルを意図的に導き、推論ステップの連鎖を生成する。
推論能力をさらに向上するための新しいアプローチであるDiVeRSeを提案する。
- 参考スコア(独自算出の注目度): 49.16750018427259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models such as GPT-3 and PaLM have shown remarkable
performance in few-shot learning. However, they still struggle with reasoning
tasks such as the arithmetic benchmark GSM8K. Recent advances deliberately
guide the language model to generate a chain of reasoning steps before
producing the final answer, successfully boosting the GSM8K benchmark from
17.9% to 58.1% in terms of problem solving rate. In this paper, we propose a
new approach, DiVeRSe (Diverse Verifier on Reasoning Step), to further advance
their reasoning capability. DiVeRSe first explores different prompts to enhance
the diversity in reasoning paths. Second, DiVeRSe introduces a verifier to
distinguish good answers from bad answers for a better weighted voting.
Finally, DiVeRSe verifies the correctness of each single step rather than all
the steps in a whole. We conduct extensive experiments using the latest
language model code-davinci-002 and demonstrate that DiVeRSe can achieve new
state-of-the-art performance on six out of eight reasoning benchmarks (e.g.,
GSM8K 74.4% to 83.2%), outperforming the PaLM model with 540B parameters.
- Abstract(参考訳): GPT-3 や PaLM のような大規模言語モデルは、数発の学習で顕著な性能を示した。
しかし、彼らは算術ベンチマークGSM8Kのような推論タスクに苦戦している。
近年の進歩は言語モデルを意図的に導き、最終回答を出す前に一連の推論ステップを生成し、GSM8Kベンチマークを17.9%から58.1%に向上させることに成功した。
本稿では,その推論能力をさらに高めるために,新しい手法である多様性(推論ステップにおける逆検証)を提案する。
DiVeRSeはまず、推論パスの多様性を高めるために異なるプロンプトを探索する。
第二に、DiVeRSeは、より良い回答と悪い回答を区別する検証器を導入し、より重み付けされた投票を行う。
最後に、多様さは、すべてのステップ全体よりも、各ステップの正しさを検証します。
最新の言語モデルであるcode-davinci-002 を用いて広範な実験を行い、DiVeRSe が8つの推論ベンチマーク(例えば GSM8K 74.4% から 83.2% )のうち6つの最先端のパフォーマンスを達成できることを示し、540B のパラメータで PaLM モデルを上回った。
関連論文リスト
- TypedThinker: Typed Thinking Improves Large Language Model Reasoning [44.8904486513791]
大規模言語モデルの問題解決能力を高めるフレームワークであるTypedThinkerを提案する。
TypedThinkerは、与えられた問題に対して適切な推論型を選択し、特定の推論型を効果的に実装する、という2つの主要な課題に対処する。
実験の結果、Mistral 7Bは3.4%、LLaMA3 8Bは16.7%の精度でベースラインモデルよりも大幅に改善された。
論文 参考訳(メタデータ) (2024-10-02T18:54:45Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z) - Reasoning Like Program Executors [48.819113224699976]
POETは言語モデルにデータ駆動アプローチを通じてプログラム実行者にある推論知識を抽出する権限を与える。
PoETは自然言語推論におけるモデルパフォーマンスを大幅に向上させることができる。
PoETは推論の事前トレーニングに新たなゲートを開く。
論文 参考訳(メタデータ) (2022-01-27T12:28:24Z) - CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task [3.058685580689605]
本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
第2のサブタスクでは、声明が意味をなさない理由を選択するため、27人の参加者のうち、最初の6チーム(93.7%)で非常に競争力のある結果が得られます。
論文 参考訳(メタデータ) (2020-05-17T13:20:10Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。