論文の概要: Self-Consistency Improves Chain of Thought Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2203.11171v1
- Date: Mon, 21 Mar 2022 17:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:56:23.117456
- Title: Self-Consistency Improves Chain of Thought Reasoning in Language Models
- Title(参考訳): 言語モデルにおける思考推論の連鎖を改善する自己一貫性
- Authors: Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Denny Zhou
- Abstract要約: 我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
- 参考スコア(独自算出の注目度): 53.45015291520658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore a simple ensemble strategy, self-consistency, that significantly
improves the reasoning accuracy of large language models. The idea is to sample
a diverse set of outputs from a language model and return the most consistent
answer in the set. Such ensembling method improves reasoning accuracy when
combined with chain of thought prompting. For arithmetic and commonsense
reasoning benchmarks we find that self-consistency yields significant accuracy
improvements in a variety of datasets, such as GSM8K (+10%), SVAMP (+14%),
MultiArith (+24%), CommonsenseQA (+5%) and ARC (easy +4%, challenge +5%).
- Abstract(参考訳): 我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
そのアイデアは、言語モデルからさまざまな出力セットをサンプリングし、セット内の最も一貫性のある回答を返すことである。
このようなアンサンブル法は、思考の連鎖と組み合わせることで推論精度を向上させる。
算術と常識推論のベンチマークでは、GSM8K(+10%)、SVAMP(+14%)、MultiArith(+24%)、CommonsenseQA(+5%)、ARC(easy +4%、チャレンジ+5%)など、さまざまなデータセットにおいて、自己整合性によって大幅な精度向上が得られます。
関連論文リスト
- Integrative Decoding: Improve Factuality via Implicit Self-consistency [45.27124252002816]
自己整合性に基づくアプローチは,大規模言語モデルの現実的精度向上に極めて有効である。
我々は、オープンな生成タスクにおける自己整合性の可能性を解き放つために、統合的復号化(ID)を提案する。
論文 参考訳(メタデータ) (2024-10-02T13:52:55Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。