Fugu-MT 論文翻訳(概要): Stress Testing Chain-of-Thought Prompting for Large Language Models

論文の概要: Stress Testing Chain-of-Thought Prompting for Large Language Models

arxiv url: http://arxiv.org/abs/2309.16621v1
Date: Thu, 28 Sep 2023 17:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 13:05:12.824039
Title: Stress Testing Chain-of-Thought Prompting for Large Language Models
Title（参考訳）: 大規模言語モデルのためのストレステストチェーン
Authors: Aayush Mishra, Karan Thakkar
Abstract要約: 本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
参考スコア（独自算出の注目度）: 0.16317061277456998
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This report examines the effectiveness of Chain-of-Thought (CoT) prompting in improving the multi-step reasoning abilities of large language models (LLMs). Inspired by previous studies \cite{Min2022RethinkingWork}, we analyze the impact of three types of CoT prompt perturbations, namely CoT order, CoT values, and CoT operators on the performance of GPT-3 on various tasks. Our findings show that incorrect CoT prompting leads to poor performance on accuracy metrics. Correct values in the CoT is crucial for predicting correct answers. Moreover, incorrect demonstrations, where the CoT operators or the CoT order are wrong, do not affect the performance as drastically when compared to the value based perturbations. This research deepens our understanding of CoT prompting and opens some new questions regarding the capability of LLMs to learn reasoning in context.
Abstract（参考訳）: 本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性を検討する。従来の研究である{Min2022RethinkingWork}に触発されて、様々なタスクにおけるGPT-3の性能に及ぼすCoTオーダー、CoT値、CoT演算子の影響を解析した。以上の結果から,CoTの誤用により精度が低下することが示唆された。 CoTの正確な値は、正しい回答を予測するために不可欠である。さらに、CoT演算子やCoT順序が間違っている不正確な実演は、値ベースの摂動に比べて大幅に性能に影響を与えない。この研究は、CoTの理解を深め、LLMが文脈で推論を学ぶ能力について、いくつかの新しい疑問を提起する。

関連論文リスト

SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文参考訳（メタデータ） (2025-09-24T17:01:32Z)
Rewarding Curse: Analyze and Mitigate Reward Modeling Issues for LLM Reasoning [17.6082037230676]
CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。我々は,CoTの有効性が問題困難,情報ゲイン,情報フローなどのパフォーマンス改善に影響を及ぼす重要な要因を同定する。
論文参考訳（メタデータ） (2025-03-07T07:20:24Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文参考訳（メタデータ） (2024-08-16T10:34:50Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning [11.758019716526459]
Chain-of-Thought(CoT)プロンプトは、Large Language Models(LLM)の多段階推論能力を高めることが示されている。 CoTのプロンプト性能は,真の推論の暗黙化と確率バージョンの両方を反映していることを示す。
論文参考訳（メタデータ） (2024-07-01T18:01:07Z)
A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文参考訳（メタデータ） (2024-06-18T04:07:13Z)
Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness [17.6082037230676]
CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。我々は,CoTの有効性が問題困難,情報ゲイン,情報フローなどのパフォーマンス改善に影響を及ぼす重要な要因を同定する。
論文参考訳（メタデータ） (2024-05-29T09:17:46Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
When do you need Chain-of-Thought Prompting for ChatGPT? [87.45382888430643]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)から複雑な多段階推論を効果的に引き出すことができる CoT がChatGPT などの最近の命令微調整 (IFT) LLM に対してまだ有効であるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-06T17:47:29Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する無効な実演でもCoT推論が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T05:20:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。