論文の概要: DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models
- arxiv url: http://arxiv.org/abs/2310.05074v3
- Date: Mon, 23 Oct 2023 09:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:01:34.961953
- Title: DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models
- Title(参考訳): DialCoTがPPOに - より小さな言語モデルにおける推論パスの分解と探索
- Authors: Chengcheng Han, Xiaowei Du, Che Zhang, Yixin Lian, Xiang Li, Ming Gao,
Baoyuan Wang
- Abstract要約: CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
- 参考スコア(独自算出の注目度): 18.96271708412086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has proven to be effective in enhancing the
reasoning capabilities of Large Language Models (LLMs) with at least 100
billion parameters. However, it is ineffective or even detrimental when applied
to reasoning tasks in Smaller Language Models (SLMs) with less than 10 billion
parameters. To address this limitation, we introduce Dialogue-guided
Chain-of-Thought (DialCoT) which employs a dialogue format to generate
intermediate reasoning steps, guiding the model toward the final answer.
Additionally, we optimize the model's reasoning path selection using the
Proximal Policy Optimization (PPO) algorithm, further enhancing its reasoning
capabilities. Our method offers several advantages compared to previous
approaches. Firstly, we transform the process of solving complex reasoning
questions by breaking them down into a series of simpler sub-questions,
significantly reducing the task difficulty and making it more suitable for
SLMs. Secondly, we optimize the model's reasoning path selection through the
PPO algorithm. We conduct comprehensive experiments on four arithmetic
reasoning datasets, demonstrating that our method achieves significant
performance improvements compared to state-of-the-art competitors.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
しかし、100億未満のパラメータを持つ小型言語モデル(slms)の推論タスクに適用されると、効果や有害性は失われる。
この制限に対処するために,対話形式を用いて中間的推論ステップを生成し,モデルを最終回答へと導く対話ガイド付き連鎖思考 (dialcot) を導入する。
さらに,ppo(proximal policy optimization)アルゴリズムを用いてモデルの推論パス選択を最適化し,推論能力をさらに向上させる。
提案手法は従来の手法に比べていくつかの利点がある。
まず、より単純なサブクエストに分解することで複雑な推論問題の解法を変換し、タスクの難易度を大幅に低減し、SLMに適したものにする。
次に、PPOアルゴリズムを用いてモデルの推論経路の選択を最適化する。
4つの算術推論データセットについて包括的実験を行い,本手法が最先端の競争相手に比べて大幅な性能向上を実現することを実証した。
関連論文リスト
- Generating Chain-of-Thoughts with a Direct Pairwise-Comparison Approach
to Searching for the Most Promising Intermediate Thought [75.42560889109559]
思考の連鎖(CoT)法は、大きな言語モデルにステップバイステップの推論を導くために提案された。
大規模言語モデル(LLM)による評価は一般的にノイズが多く、信頼性が低いため、生成プロセスの誤解を招く可能性がある。
本稿では,最も有望な思考を直接識別する比較に基づくCoT生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms
in Large Language Models [11.967815199202203]
大規模言語モデル(LLM)は、ゼロショット・チェーン・オブ・ソート(CoT)のプロンプトを適用することで、様々なタスクにまたがる顕著なパフォーマンスを示している。
既存のゼロショットCoTプロンプトメソッドは、すべてのタスクインスタンスに対して同じCoTプロンプトを使用するのが最適ではないかもしれない。
進化的アルゴリズムを利用してLLMの多様なプロンプトを動的に生成するゼロショットプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T03:17:38Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement [53.68527732113678]
本稿では,モデルの問題解決プロセスを容易にする新しい手法であるSelf-Polish(SP)を提案する。
SPは、無関係な情報を排除し、論理構造を再構成し、局所条件を新しいものに並列に整理するようにモデルに教える。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Large Language Model Programs [74.31873455763275]
近年,大規模な事前学習型言語モデル (LLM) は,いくつかの例から指示に従うことや,新しいタスクを実行する能力を示している。
本稿では,この推論の行を拡張し,アルゴリズムやプログラムに組み込んでLLMの機能をさらに拡張する手法を提案する。
我々は、よりアルゴリズム的なアプローチにより、微調整をせずに、思考ベースラインの連鎖よりも6.4%改善する。
論文 参考訳(メタデータ) (2023-05-09T11:55:36Z) - Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。
中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。
多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文 参考訳(メタデータ) (2022-10-03T05:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。