論文の概要: Boosting LLM Reasoning: Push the Limits of Few-shot Learning with
Reinforced In-Context Pruning
- arxiv url: http://arxiv.org/abs/2312.08901v2
- Date: Tue, 26 Dec 2023 06:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:59:14.139955
- Title: Boosting LLM Reasoning: Push the Limits of Few-shot Learning with
Reinforced In-Context Pruning
- Title(参考訳): LLM推論の強化:強化インコンテキストプルーニングによるFew-shot Learningの限界を押し上げる
- Authors: Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang
- Abstract要約: 我々は数ショットのCoT学習の境界を推し進める新しい手法であるCoT-Influxを提案する。
自然言語入力には冗長性が多く,LLMのプラグ・アンド・プレイモジュールとして粗いプルーナーを提案する。
プルーナーを訓練するために,多種多様な難易度とステップを有する算数推論データセットを収集し,算数推論とトークン長制約に対する入力の有効性を計測する報奨を導入し,強化学習を用いた新しい学習手法を提案する。
- 参考スコア(独自算出の注目度): 31.265034860047525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown impressive capabilities in various
tasks, yet they still struggle with math reasoning. Despite efforts to optimize
Chain-of-Thoughts (CoT) prompts and fine-tune LLMs, the potential of few-shot
learning remains unexplored. In this work, we propose CoT-Influx, a novel
approach pushing the boundaries of few-shot CoT learning to improve LLM math
reasoning capabilities. CoT-Influx addresses the challenges of the selection of
useful examples and limited number of examples due to restricted context window
length. Inspired by our observation that natural language inputs contain many
redundancy, we propose a coarse-to-fine pruner as a plug-and-play module for
LLMs, which first identifies as many crucial CoT examples as possible and then
further prunes unimportant tokens within the context window. To train the
pruner, we collect a math reasoning dataset with diverse difficulty and steps,
introduce a reward to measure both the input's effectiveness for math reasoning
and token length constraints, and propose a novel training approach with
reinforcement learning. As a result, CoT-Influx significantly outperforms CoT
and few-shot prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and
5 mathematical datasets, achieving up to 4.55% absolute improvements.
Remarkably, without any fine-tuning, LLaMA2-70B with CoT-Influx surpasses
GPT-3.5 and a wide range of larger LLMs (PaLM, Minerva, etc.) on the GSM8K.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示しているが、それでも数学の推論に苦戦している。
CoT(Chain-of-Thoughts)のプロンプトと微調整LDMを最適化する努力にもかかわらず、数発の学習の可能性はまだ明らかになっていない。
本研究では,数ショットのCoT学習の境界を推し進める新しい手法であるCoT-Influxを提案する。
CoT-Influxは、コンテキストウィンドウの長さが制限されているため、有用な例と限られた数の例を選択することの課題に対処する。
自然言語入力には多くの冗長性が含まれているという観測に触発されて、llmsのプラグアンドプレイモジュールとして粗いprunerを提案しました。
プルーナーを訓練するために,多種多様な難易度とステップを持つ算数推論データセットを収集し,算数推論とトークン長制約に対する入力の有効性を計測する報奨を導入し,強化学習を用いた新しい学習手法を提案する。
その結果、CoT-Influx は CoT を著しく上回り、様々な LLM (LLaMA2-7B, 13B, 70B) と 5 つの数学的データセットにわたってベースラインを誘導し、最大4.55% の絶対改善を実現した。
注目すべきは、微調整なしでは、CoT-Influxを搭載したLLaMA2-70Bは、GSM8K上の幅広いLLM(PaLM、Minervaなど)とGPT-3.5を超えることである。
関連論文リスト
- Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Can Separators Improve Chain-of-Thought Prompting? [11.155820558660245]
CoTプロンプトは、大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である。
人間の認知にインスパイアされたCoT-Sepは,CoTプロンプトにおける各例の最後にセパレータを戦略的に活用する新しい手法である。
論文 参考訳(メタデータ) (2024-02-16T12:46:16Z) - Chain-of-Thought Reasoning Without Prompting [48.351650919819456]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練されたLCMから引き出すことができる。
我々は、デコードパスにおけるCoTの存在は、モデルのデコードされた回答に対する高い信頼と相関していることを観察する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - When do you need Chain-of-Thought Prompting for ChatGPT? [87.45382888430643]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)から複雑な多段階推論を効果的に引き出すことができる
CoT がChatGPT などの最近の命令微調整 (IFT) LLM に対してまだ有効であるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-06T17:47:29Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。