論文の概要: Progressive-Hint Prompting Improves Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.09797v6
- Date: Mon, 07 Oct 2024 04:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:43.145762
- Title: Progressive-Hint Prompting Improves Reasoning in Large Language Models
- Title(参考訳): Progressive-Hint Promptingは大規模言語モデルの推論を改善する
- Authors: Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li,
- Abstract要約: 本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 63.98629132836499
- License:
- Abstract: The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted extensive and comprehensive experiments on seven benchmarks. The results show that PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.3% -> 53.9%).
- Abstract(参考訳): タスクの推論におけるLarge Language Model(LLM)のパフォーマンスは、迅速な設計に大きく依存しており、Chain-of-Thought(CoT)とself-consistency(自己整合性)は、この能力を高める重要なメソッドである。
しかし、これらの手法はLLMが生成した回答を十分に活用していない。
本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。
PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。
7つのベンチマークで広範囲で包括的な実験を行った。
その結果、PHPは高い効率を維持しながら精度を大幅に向上することがわかった。
例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。
GPT-4とPHPでは、SVAMP(89.1% -> 91.9%)、GSM8K(92% -> 95.5%)、AQuA(76.4% -> 79.9%)、MATH(50.3% -> 53.9%)の最先端のパフォーマンスを実現している。
関連論文リスト
- Enhancing Mathematical Reasoning in LLMs by Stepwise Correction [39.67266805233599]
Best-of-N復号法は、大規模言語モデル(LLM)に複数の解を生成するように指示し、それぞれがスコアリング関数を使用してスコアし、数学的な推論問題に対する最終解として最も高いスコアを選択する。
本稿では,LLMが生成した推論経路の誤りステップを特定し,修正するのに役立つ,ステップワイズ補正(StepCo)という新しいプロンプト手法を提案する。
バリデーション・then-reviseプロセスは、回答の正しさを向上するだけでなく、生成に必要なパスを減らしてトークン消費を減らす。
論文 参考訳(メタデータ) (2024-10-16T18:18:42Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Benchmarking and Improving Generator-Validator Consistency of Language
Models [82.73914625520686]
言語モデル(LM)において、解答の生成と検証が一般的である矛盾
最先端のLMであるGPT-4でさえ、GVとの共存率はわずか76%である。
このアプローチはAlpaca-30BのGV一貫性を60%から93%に向上させる。
論文 参考訳(メタデータ) (2023-10-03T07:23:22Z) - Toward Adversarial Training on Contextualized Language Representation [78.39805974043321]
本稿では, PLMエンコーダが出力する文脈化言語表現の観点から, 対人訓練(AT)について検討する。
そこで我々は, テキストコンテキスト適応型表現-逆訓練(CreAT)を提案し, 攻撃を明示的に最適化し, エンコーダの文脈化表現を逸脱させる。
CreATは幅広いタスクで一貫したパフォーマンス向上を実現しており、エンコーダ部分のみを下流タスクに保持する言語事前トレーニングに有効であることが証明されている。
論文 参考訳(メタデータ) (2023-05-08T08:56:51Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。