論文の概要: Progressive-Hint Prompting Improves Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.09797v1
- Date: Wed, 19 Apr 2023 16:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:35:46.383745
- Title: Progressive-Hint Prompting Improves Reasoning in Large Language Models
- Title(参考訳): Progressive-Hint Promptingは大規模言語モデルの推論を改善する
- Authors: Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li
- Abstract要約: 本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザと大規模言語モデル間の複数の対話を自動的に可能とし、適切な回答を段階的にガイドする。
実験の結果,CoTと自己整合性をPHPと組み合わせることで,高い効率を保ちながら精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 45.667062653613456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of Large Language Models (LLMs) in reasoning tasks depends
heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency
being critical methods that enhance this ability. However, these methods do not
fully exploit the answers generated by the LLM to guide subsequent responses.
This paper proposes a new prompting method, named Progressive-Hint Prompting
(PHP), that enables automatic multiple interactions between users and LLMs by
using previously generated answers as hints to progressively guide toward the
correct answers. PHP is orthogonal to CoT and self-consistency, making it easy
to combine with state-of-the-art techniques to further improve performance. We
conducted an extensive and comprehensive evaluation to demonstrate the
effectiveness of the proposed method. Our experimental results on six
benchmarks show that combining CoT and self-consistency with PHP significantly
improves accuracy while remaining highly efficient. For instance, with
text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding
compared to Complex CoT, and a 46.17% reduction in sample paths with
self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances
on SVAMP (91.9%), GSM8K (95.5%) and AQuA (79.9%).
- Abstract(参考訳): 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。
しかし、これらの手法はLLMが生成した回答を十分に活用していない。
本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。
PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。
提案手法の有効性を実証するため,広範かつ包括的な評価を行った。
6つのベンチマーク実験の結果,CoTとPHPの自己整合性の組み合わせは高い効率を維持しながら精度を著しく向上させることがわかった。
例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。
GPT-4とPHPでは、SVAMP(91.9%)、GSM8K(95.5%)、AQuA(79.9%)の最先端のパフォーマンスを実現している。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Enhancing Mathematical Reasoning in LLMs by Stepwise Correction [39.67266805233599]
Best-of-N復号法は、大規模言語モデル(LLM)に複数の解を生成するように指示し、それぞれがスコアリング関数を使用してスコアし、数学的な推論問題に対する最終解として最も高いスコアを選択する。
本稿では,LLMが生成した推論経路の誤りステップを特定し,修正するのに役立つ,ステップワイズ補正(StepCo)という新しいプロンプト手法を提案する。
バリデーション・then-reviseプロセスは、回答の正しさを向上するだけでなく、生成に必要なパスを減らしてトークン消費を減らす。
論文 参考訳(メタデータ) (2024-10-16T18:18:42Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Benchmarking and Improving Generator-Validator Consistency of Language
Models [82.73914625520686]
言語モデル(LM)において、解答の生成と検証が一般的である矛盾
最先端のLMであるGPT-4でさえ、GVとの共存率はわずか76%である。
このアプローチはAlpaca-30BのGV一貫性を60%から93%に向上させる。
論文 参考訳(メタデータ) (2023-10-03T07:23:22Z) - Toward Adversarial Training on Contextualized Language Representation [78.39805974043321]
本稿では, PLMエンコーダが出力する文脈化言語表現の観点から, 対人訓練(AT)について検討する。
そこで我々は, テキストコンテキスト適応型表現-逆訓練(CreAT)を提案し, 攻撃を明示的に最適化し, エンコーダの文脈化表現を逸脱させる。
CreATは幅広いタスクで一貫したパフォーマンス向上を実現しており、エンコーダ部分のみを下流タスクに保持する言語事前トレーニングに有効であることが証明されている。
論文 参考訳(メタデータ) (2023-05-08T08:56:51Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。