論文の概要: When is the consistent prediction likely to be a correct prediction?
- arxiv url: http://arxiv.org/abs/2407.05778v1
- Date: Mon, 8 Jul 2024 09:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:10:47.270901
- Title: When is the consistent prediction likely to be a correct prediction?
- Title(参考訳): 一貫性のある予測が正しい予測になるのはいつでしょう?
- Authors: Alex Nguyen, Dheeraj Mekala, Chengyu Dong, Jingbo Shang,
- Abstract要約: より長い推論テキストから導出される一貫した回答は、より正しい可能性が高いことを示す。
これは主に、LLMが自律的にチェーン・オブ・シント(CoT)スタイルの推論を生成できることを実証するためである。
より長い応答を生成するLLMの確率は非常に低く、出力長を条件とした復号化戦略の必要性を強調した。
- 参考スコア(独自算出の注目度): 34.41365254799998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-consistency (Wang et al., 2023) suggests that the most consistent answer obtained through large language models (LLMs) is more likely to be correct. In this paper, we challenge this argument and propose a nuanced correction. Our observations indicate that consistent answers derived through more computation i.e. longer reasoning texts, rather than simply the most consistent answer across all outputs, are more likely to be correct. This is predominantly because we demonstrate that LLMs can autonomously produce chain-of-thought (CoT) style reasoning with no custom prompts merely while generating longer responses, which lead to consistent predictions that are more accurate. In the zero-shot setting, by sampling Mixtral-8x7B model multiple times and considering longer responses, we achieve 86% of its self-consistency performance obtained through zero-shot CoT prompting on the GSM8K and MultiArith datasets. Finally, we demonstrate that the probability of LLMs generating a longer response is quite low, highlighting the need for decoding strategies conditioned on output length.
- Abstract(参考訳): 自己整合性 (Wang et al , 2023) は、大きな言語モデル (LLMs) によって得られる最も一貫性のある答えが正しい可能性が高いことを示唆している。
本稿では,この議論に挑戦し,ニュアンス補正を提案する。
我々の観察は、より多くの計算によって導かれる一貫性のある答え、すなわち、すべての出力に対して最も一貫性のある答えよりも、より長い推論テキストによって導かれる一貫性のある答えが正しいことを示唆している。
これは、LLMが、より長いレスポンスを生成しながら、カスタムプロンプトを伴わずに、自律的にチェーン・オブ・ソート(CoT)スタイルの推論を生成できることを示し、より正確な一貫した予測につながるためである。
ゼロショット設定では、Mixtral-8x7Bモデルを複数回サンプリングし、より長い応答を考慮し、GSM8KおよびMultiArithデータセット上でのゼロショットCoTによる自己整合性能の86%を達成する。
最後に,LLMがより長い応答を生成する確率は非常に低いことを示し,出力長を条件とした復号化戦略の必要性を強調した。
関連論文リスト
- Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting [0.4662017507844857]
本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。
これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
論文 参考訳(メタデータ) (2024-02-05T00:44:28Z) - Get an A in Math: Progressive Rectification Prompting [42.09762345892869]
CoT(Chain-of-Thought)プロンプト法により,大規模言語モデル(LLM)が推論経路を生成し,算術語問題(MWP)を解くことが可能になった。
77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP (Progressive Rectification Prompting) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:25:57Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。