論文の概要: Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement
- arxiv url: http://arxiv.org/abs/2305.14497v1
- Date: Tue, 23 May 2023 19:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:48:35.761062
- Title: Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement
- Title(参考訳): 自己汚染:問題修正による大規模言語モデルの推論
- Authors: Zhiheng Xi, Senjie Jin, Yuhao Zhou, Rui Zheng, Songyang Gao, Tao Gui,
Qi Zhang, Xuanjing Huang
- Abstract要約: 本稿では,モデルの問題解決プロセスを容易にする新しい手法であるSelf-Polish(SP)を提案する。
SPは、無関係な情報を排除し、論理構造を再構成し、局所条件を新しいものに並列に整理するようにモデルに教える。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 53.68527732113678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting methods such as Chain-of-Thought (CoT) have shed new light on
enhancing the reasoning capabilities of large language models, and researchers
have extensively explored the generation process of rationales and answers.
However, they have overlooked the potential challenges posed by the poor
quality of reasoning problems, which may influence the reasoning performance
significantly. In this work, we propose Self-Polish (SP), a novel method that
facilitates the model's problem-solving process by prompting them to
progressively refine the given problems to be more comprehensible and solvable.
Specifically, the method teaches models to eliminate irrelevant information,
rearrange the logic structure and organize local conditions into new ones
parallelly. SP is orthogonal to all other prompting methods, making it
convenient to integrate with state-of-the-art techniques for further
improvement. We conduct thorough experiments on five benchmarks to illustrate
the effectiveness of the proposed method. For example, with Text-davinci-003,
our method boosts the performance of standard few-shot prompting by $8.0\%$ on
GSM8K and $17.8\%$ on MultiArith; it also improves the performance of CoT by
$6.0\%$ on GSM8K and $6.0\%$ on MathQA, respectively. Furthermore, our method
also showcases impressive performance on robustness evaluation.
- Abstract(参考訳): CoT(Chain-of-Thought)のようなプロンプティング手法は、大規模言語モデルの推論能力の向上に新たな光を当て、研究者は理論と答えの生成過程を幅広く研究してきた。
しかし、彼らは推論性能に大きな影響を及ぼす可能性のある推論問題の質の低下によって生じる潜在的な課題を見落としている。
本研究では,与えられた問題を段階的に洗練させ,より理解しやすく解くことを促すことによって,モデルの問題解決プロセスを容易にする新しい手法であるセルフポリッシュ(sp)を提案する。
具体的には、無関係な情報を排除し、論理構造を再構成し、局所条件を並列に新しいものに整理する。
spは他のすべてのプロンプトメソッドと直交しており、さらなる改善のために最先端の技術を統合するのが便利である。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
例えば、Text-davinci-003では、GSM8Kで8.0\%、MultiArithで17.8\%、GSM8Kで6.0\%、MathQAで6.0\%、それぞれCoTで6.0\%となっている。
また,本手法はロバスト性評価における印象的な性能を示す。
関連論文リスト
- Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-16T13:02:11Z) - DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文 参考訳(メタデータ) (2023-10-08T08:52:13Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [45.667062653613456]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。