Fugu-MT 論文翻訳(概要): Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot

論文の概要: Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot

arxiv url: http://arxiv.org/abs/2506.14641v1
Date: Tue, 17 Jun 2025 15:39:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.548219
Title: Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot
Title（参考訳）: ゼロショット」は「ゼロショット」より「ゼロショット」の方が強い
Authors: Xiang Cheng, Chengyan Pan, Minjun Zhao, Deyang Li, Fangchao Liu, Xinyu Zhang, Xiao Zhang, Yong Liu,
Abstract要約: In-Context Learning(ICL)は、大規模言語モデル(LLM)の重要な創発的能力である近年の研究では、特に数学タスクにおける推論能力を高めるために、ICLを例に、Chain-of-Thought (CoT)を導入している。 Qwen2.5シリーズのような最近の強力なモデルでは、従来のCoTの例を付加してもZero-Shot CoTに比べて推論性能は向上しない。
参考スコア（独自算出の注目度）: 20.63612244967553
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-Context Learning (ICL) is an essential emergent ability of Large Language Models (LLMs), and recent studies introduce Chain-of-Thought (CoT) to exemplars of ICL to enhance the reasoning capability, especially in mathematics tasks. However, given the continuous advancement of model capabilities, it remains unclear whether CoT exemplars still benefit recent, stronger models in such tasks. Through systematic experiments, we find that for recent strong models such as the Qwen2.5 series, adding traditional CoT exemplars does not improve reasoning performance compared to Zero-Shot CoT. Instead, their primary function is to align the output format with human expectations. We further investigate the effectiveness of enhanced CoT exemplars, constructed using answers from advanced models such as \texttt{Qwen2.5-Max} and \texttt{DeepSeek-R1}. Experimental results indicate that these enhanced exemplars still fail to improve the model's reasoning performance. Further analysis reveals that models tend to ignore the exemplars and focus primarily on the instructions, leading to no observable gain in reasoning ability. Overall, our findings highlight the limitations of the current ICL+CoT framework in mathematical reasoning, calling for a re-examination of the ICL paradigm and the definition of exemplars.
Abstract（参考訳）: In-Context Learning (ICL) は、大規模言語モデル(LLM)の重要な創発的能力であり、最近の研究では、ICLを例に、特に数学のタスクにおいて、推論能力を高めるためにChain-of-Thought (CoT)を導入している。しかし、モデル能力の継続的な進歩を考えると、CoTの先駆者が最近のより強力なモデルにまだ恩恵を受けているかどうかは不明だ。体系的な実験により、Qwen2.5シリーズのような最近の強力なモデルでは、従来のCoTの例がZero-Shot CoTに比べて推論性能を向上しないことがわかった。その代わり、彼らの主な機能は出力フォーマットを人間の期待に合わせることである。さらに, 拡張CoT指数の有効性について検討し, 先進的なモデルである \texttt{Qwen2.5-Max} や \texttt{DeepSeek-R1} の回答を用いて構築した。実験結果から, これらの拡張された例は, モデルの推論性能をまだ改善できていないことが示唆された。さらなる分析により、モデルは模範を無視し、主に指示に集中する傾向にあり、推論能力において観測可能な利得は得られないことが明らかになった。全体としては、数学的推論における現在のICC+CoTフレームワークの限界を強調し、ICCパラダイムの再検討と模範の定義を要求した。

関連論文リスト

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文参考訳（メタデータ） (2025-07-14T01:14:50Z)
Large Reasoning Models are not thinking straight: on the unreliability of thinking trajectories [0.0]
強化学習(RL)を通じてトレーニングされたLarge Language Models(LLMs)は、最近、推論ベンチマークで印象的な結果を得た。しかし、成長する証拠は、これらのモデルがしばしば長いが効果のない思考の連鎖(CoT)を生成することを示している。モデルが明示的に提供しても正しい解を無視し、代わりに不要な推論ステップを生成し続けるという、過度な考えの新たな証拠を提示する。
論文参考訳（メタデータ） (2025-07-01T12:14:22Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文参考訳（メタデータ） (2025-05-15T11:31:02Z)
Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。 LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文参考訳（メタデータ） (2025-05-06T12:18:11Z)
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。 CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文参考訳（メタデータ） (2025-04-07T13:51:06Z)
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。 DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。 DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文参考訳（メタデータ） (2025-02-26T17:59:27Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。