論文の概要: Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot
- arxiv url: http://arxiv.org/abs/2506.14641v1
- Date: Tue, 17 Jun 2025 15:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.548219
- Title: Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot
- Title(参考訳): ゼロショット」は「ゼロショット」より「ゼロショット」の方が強い
- Authors: Xiang Cheng, Chengyan Pan, Minjun Zhao, Deyang Li, Fangchao Liu, Xinyu Zhang, Xiao Zhang, Yong Liu,
- Abstract要約: In-Context Learning(ICL)は、大規模言語モデル(LLM)の重要な創発的能力である
近年の研究では、特に数学タスクにおける推論能力を高めるために、ICLを例に、Chain-of-Thought (CoT)を導入している。
Qwen2.5シリーズのような最近の強力なモデルでは、従来のCoTの例を付加してもZero-Shot CoTに比べて推論性能は向上しない。
- 参考スコア(独自算出の注目度): 20.63612244967553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-Context Learning (ICL) is an essential emergent ability of Large Language Models (LLMs), and recent studies introduce Chain-of-Thought (CoT) to exemplars of ICL to enhance the reasoning capability, especially in mathematics tasks. However, given the continuous advancement of model capabilities, it remains unclear whether CoT exemplars still benefit recent, stronger models in such tasks. Through systematic experiments, we find that for recent strong models such as the Qwen2.5 series, adding traditional CoT exemplars does not improve reasoning performance compared to Zero-Shot CoT. Instead, their primary function is to align the output format with human expectations. We further investigate the effectiveness of enhanced CoT exemplars, constructed using answers from advanced models such as \texttt{Qwen2.5-Max} and \texttt{DeepSeek-R1}. Experimental results indicate that these enhanced exemplars still fail to improve the model's reasoning performance. Further analysis reveals that models tend to ignore the exemplars and focus primarily on the instructions, leading to no observable gain in reasoning ability. Overall, our findings highlight the limitations of the current ICL+CoT framework in mathematical reasoning, calling for a re-examination of the ICL paradigm and the definition of exemplars.
- Abstract(参考訳): In-Context Learning (ICL) は、大規模言語モデル(LLM)の重要な創発的能力であり、最近の研究では、ICLを例に、特に数学のタスクにおいて、推論能力を高めるためにChain-of-Thought (CoT)を導入している。
しかし、モデル能力の継続的な進歩を考えると、CoTの先駆者が最近のより強力なモデルにまだ恩恵を受けているかどうかは不明だ。
体系的な実験により、Qwen2.5シリーズのような最近の強力なモデルでは、従来のCoTの例がZero-Shot CoTに比べて推論性能を向上しないことがわかった。
その代わり、彼らの主な機能は出力フォーマットを人間の期待に合わせることである。
さらに, 拡張CoT指数の有効性について検討し, 先進的なモデルである \texttt{Qwen2.5-Max} や \texttt{DeepSeek-R1} の回答を用いて構築した。
実験結果から, これらの拡張された例は, モデルの推論性能をまだ改善できていないことが示唆された。
さらなる分析により、モデルは模範を無視し、主に指示に集中する傾向にあり、推論能力において観測可能な利得は得られないことが明らかになった。
全体としては、数学的推論における現在のICC+CoTフレームワークの限界を強調し、ICCパラダイムの再検討と模範の定義を要求した。
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。