論文の概要: Making Large Language Models Better Reasoners with Step-Aware Verifier
- arxiv url: http://arxiv.org/abs/2206.02336v3
- Date: Wed, 24 May 2023 04:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:32:46.079582
- Title: Making Large Language Models Better Reasoners with Step-Aware Verifier
- Title(参考訳): ステップアウェア検証による大規模言語モデルの改良
- Authors: Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou,
Weizhu Chen
- Abstract要約: DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
- 参考スコア(独自算出の注目度): 49.16750018427259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning is a challenging task that requires language models to
generalize from limited examples. Large language models like GPT-3 and PaLM
have made impressive progress in this area, but they still face difficulties in
reasoning tasks such as GSM8K, a benchmark for arithmetic problems. To improve
their reasoning skills, previous work has proposed to guide the language model
with prompts that elicit a series of reasoning steps before giving the final
answer, achieving a significant improvement on GSM8K from 17.9% to 58.1% in
problem-solving rate. In this paper, we present DIVERSE (Diverse Verifier on
Reasoning Step), a novel approach that further enhances the reasoning
capability of language models. DIVERSE has three main components: first, it
generates diverse prompts to explore different reasoning paths for the same
question; second, it uses a verifier to filter out incorrect answers based on a
weighted voting scheme; and third, it verifies each reasoning step individually
instead of the whole chain. We evaluate DIVERSE on the latest language model
code-davinci-002 and show that it achieves new state-of-the-art results on six
of eight reasoning benchmarks (e.g., GSM8K 74.4% to 83.2%).
- Abstract(参考訳): 限られた例から一般化するためには、言語モデルが必要である。
GPT-3やPaLMのような大規模言語モデルはこの分野で目覚ましい進歩を遂げているが、算術問題のためのベンチマークであるGSM8Kのような推論タスクでは依然として困難に直面している。
推論スキルを向上させるために、以前の研究は、最終回答を出す前に一連の推論ステップを導き、gsm8kを17.9%から58.1%の問題解決率で大幅に改善することを提案した。
本稿では,言語モデルの推論能力をさらに高めるための新しいアプローチとして,多様性(推論ステップのdiverse verifier)を提案する。
DIVERSEには3つの主要なコンポーネントがある: 1つは、同じ質問に対して異なる推論経路を探索する多様なプロンプトを生成すること、2つ目は、重み付けされた投票方式に基づいて不正な回答をフィルタリングするために検証器を使用しており、もう1つは、チェーン全体ではなく、それぞれの推論ステップを個別に検証する。
最新の言語モデルであるcode-davinci-002 上でDIVERSEを評価し,8つの推論ベンチマーク(GSM8K 74.4% から 83.2% など)のうち6つに対して,新たな最先端結果が得られることを示す。
関連論文リスト
- EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - TypedThinker: Typed Thinking Improves Large Language Model Reasoning [44.8904486513791]
大規模言語モデルの問題解決能力を高めるフレームワークであるTypedThinkerを提案する。
TypedThinkerは、与えられた問題に対して適切な推論型を選択し、特定の推論型を効果的に実装する、という2つの主要な課題に対処する。
実験の結果、Mistral 7Bは3.4%、LLaMA3 8Bは16.7%の精度でベースラインモデルよりも大幅に改善された。
論文 参考訳(メタデータ) (2024-10-02T18:54:45Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。
ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z) - CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task [3.058685580689605]
本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
第2のサブタスクでは、声明が意味をなさない理由を選択するため、27人の参加者のうち、最初の6チーム(93.7%)で非常に競争力のある結果が得られます。
論文 参考訳(メタデータ) (2020-05-17T13:20:10Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。