論文の概要: CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.23270v1
- Date: Sat, 25 Apr 2026 12:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.238734
- Title: CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning
- Title(参考訳): CAP-CoT:LCM推論における思考の連鎖改善のためのサイクル逆転プロンプト
- Authors: Shuxu Chen, Yitian Zhou, Jiaquan Zhang, Haoyu Bian, Aming Wu, Sungyoung Lee, Chaoning Zhang, Hyundong Shin,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)からステップバイステップのソリューションを引き出すための,シンプルかつ効果的な方法として登場した。
本研究では,CoTの推理精度と1つのデプロイされたソルバの安定性を両立させるため,Cycle Adversarial Prompt最適化フレームワークであるCAP-CoTを提案する。
CAP-CoTは,摂動を誘導するための推論精度とロバスト性を改善しつつ,ランの変動性を一貫して低減することを示す。
- 参考スコア(独自算出の注目度): 32.954077252169995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has emerged as a simple and effective way to elicit step-by-step solutions from large language models (LLMs). However, CoT reasoning can be unstable across runs on long, multi-step problems, leading to inconsistent answers for unchanged task. Most prior work focuses on improving the forward reasoning chain within a single pass, with less attention to iterative and contrastive correction. To address this gap, we propose CAP-CoT, a Cycle Adversarial Prompt optimization framework designed to improve both CoT reasoning accuracy and stability of a single deployed solver. In each cycle, a forward solver generates candidate reasoning chains, an adversarial challenger constructs plausible but deliberately flawed chains using targeted error strategies, and a feedback agent contrasts the two chains and produces step-aligned structured feedback. This feedback closes the optimization loop in two directions, including updating the solver prompt based on errors exposed by the challenger, and updating the challenger prompt to generate increasingly targeted errors in subsequent cycles. Unlike safety-oriented adversarial prompting such as jailbreak or prompt-injection attacks, our adversarial component is task-semantic and aims to expose logical vulnerabilities in reasoning chains. Experiments across six benchmarks and four LLM backbones demonstrate that within two to three adversarial prompt optimization cycles, CAP-CoT consistently reduces variability across runs while improving reasoning accuracy and robustness to prompt perturbations.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)からステップバイステップのソリューションを引き出すための,シンプルかつ効果的な方法として登場した。
しかし、CoT推論は、長い複数のステップの問題で実行中に不安定になり、不連続なタスクに対する不整合な答えにつながる。
これまでのほとんどの研究は、1回のパスで前方の推論連鎖を改善することに重点を置いており、反復的かつコントラスト的な修正にはあまり注意を払わない。
このギャップに対処するために、単一デプロイソルバのCoT推論精度と安定性の両方を改善するために設計されたCycle Adversarial Prompt最適化フレームワークであるCAP-CoTを提案する。
各サイクルにおいて、フォワードソルバは、候補推論チェーンを生成し、敵対的チャレンジャーは、目標とするエラー戦略を用いて、プラプティブルで意図的に欠陥のあるチェーンを構築し、フィードバックエージェントは、2つのチェーンを対比し、ステップ整列された構造化されたフィードバックを生成する。
このフィードバックは、2つの方向に最適化ループをクローズする。例えば、チャレンジャーが露出したエラーに基づいてソルバプロンプトを更新し、チャレンジャープロンプトを更新することで、次のサイクルでますますターゲットとなるエラーを発生させる。
ジェイルブレイクやインジェクション攻撃のような安全指向の敵攻撃とは異なり、我々の敵コンポーネントはタスクセマンティックであり、推論チェーンにおける論理的脆弱性を明らかにすることを目的としている。
6つのベンチマークと4つのLCMバックボーンによる実験により、CAP-CoTは2~3つの逆のプロンプト最適化サイクルにおいて、連続的にランの変動を低減し、推論精度とロバスト性を改善して摂動を誘導することを示した。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。