論文の概要: Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning
- arxiv url: http://arxiv.org/abs/2312.08901v3
- Date: Thu, 15 Feb 2024 05:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:56:38.749175
- Title: Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning
- Title(参考訳): 余計なこと:強化コンテキストプルーニングによるLLM推論の強化
- Authors: Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Fan Yang, Mao Yang
- Abstract要約: 大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。
我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。
CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
- 参考スコア(独自算出の注目度): 31.110005898556892
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive capabilities, yet they
still struggle with math reasoning. In this work, we propose CoT-Influx, a
novel approach that pushes the boundary of few-shot Chain-of-Thoughts (CoT)
learning to improve LLM mathematical reasoning. Motivated by the observation
that adding more concise CoT examples in the prompt can improve LLM reasoning
performance, CoT-Influx employs a coarse-to-fine pruner to maximize the input
of effective and concise CoT examples. The pruner first selects as many crucial
CoT examples as possible and then prunes unimportant tokens to fit the context
window. A math reasoning dataset with diverse difficulty levels and reasoning
steps is used to train the pruner, along with a math-specialized reinforcement
learning approach. As a result, by enabling more CoT examples with double the
context window size in tokens, CoT-Influx significantly outperforms various
prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and 5 math
datasets, achieving up to 4.55% absolute improvements. Remarkably, without any
fine-tuning, LLaMA2-70B with CoT-Influx surpasses GPT-3.5 and a wide range of
larger LLMs (PaLM, Minerva 540B, etc.) on the GSM8K. CoT-Influx serves as a
plug-and-play module for LLMs and is compatible with most existing reasoning
prompting techniques, such as self-consistency and self-verification.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。
本研究では,LLMの数学的推論を改善するために,数発のChain-of-Thoughts(CoT)学習の境界を推し進める新しいアプローチであるCoT-Influxを提案する。
CoT-Influxは、より簡潔なCoTサンプルをプロンプトに付加することで、LCM推論性能を向上させることができるという観察により、CoTサンプルの入力を最大化するために粗粒プルーナを使用している。
prunerは、まず可能な限り重要なcotサンプルを選択し、次にコンテキストウィンドウに合うように重要でないトークンをプルする。
様々な難易度と推論ステップを持つ数学推論データセットは、数学特化強化学習アプローチとともに、プルーナーの訓練に使用される。
その結果、トークンのコンテキストウィンドウサイズを2倍にすることで、CoT-Influxは様々なLCM(LLaMA2-7B、13B、70B)と5つの数学データセットで様々なプロンプトベースラインを著しく上回り、最大4.55%の改善を実現した。
注目すべきは、微調整なしでは、CoT-Influxを搭載したLLaMA2-70Bは、GSM8K上の幅広いLLM(PaLM、Minerva 540Bなど)とGPT-3.5を超えることである。
CoT-InfluxはLLMのプラグアンドプレイモジュールとして機能し、自己整合性や自己検証といった既存の推論技術と互換性がある。
関連論文リスト
- To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。
ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。
これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文 参考訳(メタデータ) (2024-06-13T14:07:02Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Can Separators Improve Chain-of-Thought Prompting? [10.398343318429367]
CoTプロンプトは大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である
人間の認知にインスパイアされたCOT-SEP(COT-SEP)は,CoTプロンプトにおける各指数の最後にセパレータを戦略的に採用する手法である。
論文 参考訳(メタデータ) (2024-02-16T12:46:16Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - When do you need Chain-of-Thought Prompting for ChatGPT? [87.45382888430643]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)から複雑な多段階推論を効果的に引き出すことができる
CoT がChatGPT などの最近の命令微調整 (IFT) LLM に対してまだ有効であるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-06T17:47:29Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。