論文の概要: Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement
- arxiv url: http://arxiv.org/abs/2305.14497v2
- Date: Thu, 18 Apr 2024 07:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:49:22.954859
- Title: Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement
- Title(参考訳): 自己政治:問題修正による大規模言語モデルの推論
- Authors: Zhiheng Xi, Senjie Jin, Yuhao Zhou, Rui Zheng, Songyang Gao, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
- 参考スコア(独自算出の注目度): 50.62461749446111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enhance the multi-step reasoning capabilities of large language models, researchers have extensively explored prompting methods, notably the Chain-of-Thought (CoT) method which explicitly elicits human-like rationales. However, they have inadvertently overlooked the potential of enhancing model reasoning performance by formulating higher-quality problems. In this work, we start from the problem side and propose Self-Polish (SP), a novel method that facilitates the model's reasoning by guiding it to progressively refine the given problems to be more comprehensible and solvable. We also explore several automatic prompting varients and propose the Self-Polish prompt bank for the community. SP is orthogonal to all other prompting methods of answer/reasoning side like CoT, allowing for seamless integration with state-of-the-art techniques for further improvement. Thorough experiments show that the proposed method attains notable and consistent effectiveness on five reasoning benchmarks across different models. Furthermore, our method also showcases impressive performance on robustness evaluation. Codes and prompts are available at https://github.com/WooooDyy/Self-Polish.
- Abstract(参考訳): 大規模言語モデルの多段階推論能力を高めるために、研究者は、特に人間のような有理性を明示するChain-of-Thought(CoT)法について広範囲に研究してきた。
しかし、彼らは、高品質の問題を定式化することによってモデル推論性能を向上させる可能性を見落としている。
本研究は,問題側から始め,与えられた問題を段階的に洗練し,より理解し,解き易いものにすることで,モデルの推論を促進する新しい手法であるセルフ・ポリッシュ(SP)を提案する。
また、いくつかの自動的促進変数についても検討し、コミュニティ向けのセルフ・ポリッシュ・プロンプトバンクを提案する。
SPはCoTのような応答/推論の他のすべての方法と直交しており、最先端技術とのシームレスな統合を可能にし、さらなる改善を可能にしている。
より詳細な実験により, 提案手法は, 異なるモデルにまたがる5つの推論ベンチマークにおいて, 顕著かつ一貫した有効性が得られることを示した。
さらに,ロバスト性評価に優れた性能を示す。
コードとプロンプトはhttps://github.com/WooooDyy/Self-Polish.comで入手できる。
関連論文リスト
- SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - Empowering Multi-step Reasoning across Languages via Tree-of-Thoughts [1.8175282137722093]
CoT(Chain-of-Thought)メソッドは、LLM(Large Language Models)によって複雑なタスクをステップバイステップで解決する。
事前学習データの分布の不均衡のため、多段階推論を実現する能力は英語に限られている。
言語間の相互言語CoT推論を整合させる手法としてクロス言語木(Cross-ToT)を提案する。
論文 参考訳(メタデータ) (2023-11-14T11:49:43Z) - DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文 参考訳(メタデータ) (2023-10-08T08:52:13Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。