論文の概要: Parrot: A Training Pipeline Enhances Both Program CoT and Natural   Language CoT for Reasoning
        - arxiv url: http://arxiv.org/abs/2510.25310v1
 - Date: Wed, 29 Oct 2025 09:23:17 GMT
 - ステータス: 翻訳完了
 - システム内更新日: 2025-10-30 15:50:45.298039
 - Title: Parrot: A Training Pipeline Enhances Both Program CoT and Natural   Language CoT for Reasoning
 - Title(参考訳): Parrot: プログラムCoTと自然言語CoTの両方を推論するためのトレーニングパイプライン
 - Authors: Senjie Jin, Lu Chen, Zhiheng Xi, Yuhui Wang, Sirui Song, Yuhao Zhou, Xinbo Zhang, Peng Sun, Hong Lu, Tao Gui, Qi Zhang, Xuanjing Huang, 
 - Abstract要約: 自然言語のチェーン・オブ・シント(N-CoT)とプログラム・チェーン・オブ・シント(P-CoT)は、数学的な推論問題を解決するために、大規模言語モデル(LLM)の2つの主要なパラダイムとして登場した。
数学的問題に対する新しいトレーニングパイプラインであるParrotを提案する。
 - 参考スコア(独自算出の注目度): 68.97552595184696
 - License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
 - Abstract:   Natural language chain-of-thought (N-CoT) and Program chain-of-thought (P-CoT) have emerged as two primary paradigms for large language models (LLMs) to solve mathematical reasoning problems. Current research typically endeavors to achieve unidirectional enhancement: P-CoT enhanced N-CoT or N-CoT enhanced P-CoT. In this paper, we seek to fully unleash the two paradigms' strengths for mutual enhancement and ultimately achieve simultaneous improvements. We conduct a detailed analysis of the error types across two paradigms, based on which we propose Parrot, a novel training pipeline for mathematical problems: 1) Three target-designed subtasks integrate sequential P-CoT and N-CoT generation. 2) A subtask hybrid training strategy to facilitate natural language semantic transferability. 3) The converted N-CoT auxiliary reward is designed to alleviate the sparse rewards in P-CoT optimization. Extensive experiments demonstrate that Parrot significantly enhances both the performance of N-CoT and P-CoT, especially on N-CoT. Using Parrot SFT, the N-CoT performance of LLaMA2 and CodeLLaMA achieve gains of +21.87 and +21.48 on MathQA over the RL baseline, which is resource-intensive. 
 - Abstract(参考訳): 自然言語のチェーン・オブ・シント(N-CoT)とプログラム・チェーン・オブ・シント(P-CoT)は、数学的な推論問題を解決するために、大規模言語モデル(LLM)の2つの主要なパラダイムとして登場した。
P-CoT強化N-CoTまたはN-CoT増強P-CoT。
本稿では、相互強化のための2つのパラダイムの強みを完全に解き明かし、最終的に同時改善を実現することを目的とする。
2つのパラダイムにまたがるエラータイプを詳細に分析し、数学的問題のための新しいトレーニングパイプラインであるParrotを提案する。
1) 3つのターゲット設計サブタスクが逐次P-CoTとN-CoTを生成する。
2) 自然言語のセマンティックトランスファビリティを促進するためのサブタスクハイブリッドトレーニング戦略。
3)変換したN-CoT補助報酬は,P-CoT最適化におけるスパース報酬を軽減するように設計されている。
大規模な実験により、ParrotはN-CoTとP-CoTの両方、特にN-CoTの性能を著しく向上させることが示された。
Parrot SFTを用いて、LLaMA2とCodeLLaMAのN-CoT性能は、リソース集約的なRLベースライン上のMathQAで+21.87と+21.48のゲインを得る。
 
       
      
        関連論文リスト
        - Continuous Chain of Thought Enables Parallel Exploration and Reasoning [39.37806940098749]
連続価値トークン(CoT2)による思考の連鎖は、本質的に探索能力を必要とする論理的推論タスクによって動機付けられている。
我々は、CoT2が複数の離散トレースを並列に追跡するのにどのように役立つかを示す。
また, 埋込次元が十分であれば, サブセット和問題(subset sum problem)を解くCoT2ベースの一層変圧器も提供する。
論文  参考訳(メタデータ) (2025-05-29T16:58:28Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC   Maximization [45.99743804547533]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文  参考訳(メタデータ) (2025-05-28T03:55:05Z) - T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level   and Token-level CoT [73.10972809774039]
本稿では,強化学習を利用した新たな推論型テキスト・画像生成モデルであるT2I-R1を提案する。
ベースラインモデルであるJanus-Proに推論戦略を適用することで、T2I-CompBenchを13%改善し、WISEベンチマークを19%改善し、優れた性能を実現した。
論文  参考訳(メタデータ) (2025-05-01T17:59:46Z) - Expediting and Elevating Large Language Model Reasoning via Hidden   Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文  参考訳(メタデータ) (2024-09-13T06:29:20Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought   Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文  参考訳(メタデータ) (2024-03-21T11:34:26Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文  参考訳(メタデータ) (2023-11-05T12:03:58Z) 
        関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。