Fugu-MT 論文翻訳(概要): Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning

論文の概要: Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning

arxiv url: http://arxiv.org/abs/2312.08901v1
Date: Thu, 14 Dec 2023 13:03:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 22:15:31.524980
Title: Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning
Title（参考訳）: LLM推論の強化:強化インコンテキストプルーニングによるFew-shot Learningの限界を押し上げる
Authors: Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang
Abstract要約: 我々は,数ショットのCoT学習の境界を推し進める新しい手法であるCoT-Maxを提案する。自然言語入力には冗長性が多く,LLMのプラグ・アンド・プレイモジュールとして粗いプルーナーを提案する。プルーナーを訓練するために,多種多様な難易度とステップを有する算数推論データセットを収集し,算数推論とトークン長制約に対する入力の有効性を計測する報奨を導入し,強化学習を用いた新しい学習手法を提案する。
参考スコア（独自算出の注目度）: 31.265034860047525
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have shown impressive capabilities in various tasks, yet they still struggle with math reasoning. Despite efforts to optimize Chain-of-Thoughts (CoT) prompts and fine-tune LLMs, the potential of few-shot learning remains unexplored. In this work, we propose CoT-Max, a novel approach pushing the boundaries of few-shot CoT learning to improve LLM math reasoning capabilities. CoT-Max addresses the challenges of the selection of useful examples and limited number of examples due to restricted context window length. Inspired by our observation that natural language inputs contain many redundancy, we propose a coarse-to-fine pruner as a plug-and-play module for LLMs, which first identifies crucial CoT examples from a large batch and then further prunes unimportant tokens. To train the pruner, we collect a math reasoning dataset with diverse difficulty and steps, introduce a reward to measure both the input's effectiveness for math reasoning and token length constraints, and propose a novel training approach with reinforcement learning. As a result, CoT-Max significantly outperforms CoT and few-shot prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and 5 mathematical datasets, achieving up to 4.55% absolute improvements. Remarkably, without any fine-tuning, LLaMA2-70B with CoT-Max surpasses GPT-3.5 and a wide range of larger LLMs (PaLM, Minerva, etc.) on the GSM8K.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示しているが、それでも数学の推論に苦戦している。 CoT(Chain-of-Thoughts)のプロンプトと微調整LDMを最適化する努力にもかかわらず、数発の学習の可能性はまだ明らかになっていない。本研究では,数ショットのCoT学習の境界を推し進める新しい手法であるCoT-Maxを提案する。 CoT-Maxは、コンテキストウィンドウの長さが制限されているため、有用な例の選択と限られたサンプル数の選択の課題に対処する。自然言語入力には多くの冗長性が含まれているという観測に触発されて,llmsのプラグアンドプレイモジュールとして粗いprunerを提案する。プルーナーを訓練するために,多種多様な難易度とステップを持つ算数推論データセットを収集し,算数推論とトークン長制約に対する入力の有効性を計測する報奨を導入し,強化学習を用いた新しい学習手法を提案する。その結果、CoT-MaxはCoTを著しく上回り、様々なLLM(LLaMA2-7B、13B、70B)と5つの数学的データセットをベースラインとして最大4.55%の改善を実現している。注目すべきは、微調整なしでは、CoT-Maxを搭載したLLaMA2-70BはGPT-3.5を超え、GSM8K上の幅広いLLM(PaLM、Minervaなど)をはるかに上回っていることである。

関連論文リスト

MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs [35.16231062731263]
複数ラウンドで思考トークンを生成するためのRLトレーニング手法であるReinforcement Finetuningによるモジュール思考を提案する。 GSM8Kデータセット上のオープンソースのQwen2.5-3B-インストラクションをパラメータ効率の良い微調整により訓練し,MATH500およびAIME2024ベンチマークでその精度を検証した。
論文参考訳（メタデータ） (2025-07-03T17:55:43Z)
Learning Together to Perform Better: Teaching Small-Scale LLMs to Collaborate via Preferential Rationale Tuning [20.784944581469205]
COLLATEは、(小さな)LLMをチューニングして、下流タスクを選択的に改善する多様な理性のプールから出力を生成するフレームワークである。様々なパラメータスケール(1Bから8B)で異なるモデルファミリーのLCMに対してCOLLATEが有効であることを示すとともに、終了タスクによって導かれる複数の合理化プロバイダのメリットを示す。
論文参考訳（メタデータ） (2025-06-03T06:50:08Z)
Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文参考訳（メタデータ） (2025-05-24T11:04:52Z)
Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文参考訳（メタデータ） (2025-02-27T14:14:50Z)
Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文参考訳（メタデータ） (2025-02-26T23:22:02Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs [37.147529569445396]
Tree-of- Thought (ToT) 法では、ツリー探索を用いて推論空間を広範囲に探索し、CoTデコーディングが見落としてしまうかもしれない推論経路をよりよく見つける。 ToTで構築された検索ツリーを利用した細調整言語モデル(LLMs)により、CoTは同様のあるいはより良いパフォーマンスを実現することができる。これはCPO(Chain of Preference Optimization)によって実現され、LLMはCoT推論パスの各ステップをToTのステップと整列するように微調整される。
論文参考訳（メタデータ） (2024-06-13T14:07:02Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Can Separators Improve Chain-of-Thought Prompting? [10.398343318429367]
CoTプロンプトは大規模言語モデル(LLM)の推論能力を改善するためのシンプルで効果的な方法である人間の認知にインスパイアされたCOT-SEP(COT-SEP)は,CoTプロンプトにおける各指数の最後にセパレータを戦略的に採用する手法である。
論文参考訳（メタデータ） (2024-02-16T12:46:16Z)
Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文参考訳（メタデータ） (2024-02-15T18:55:41Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
When do you need Chain-of-Thought Prompting for ChatGPT? [87.45382888430643]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)から複雑な多段階推論を効果的に引き出すことができる CoT がChatGPT などの最近の命令微調整 (IFT) LLM に対してまだ有効であるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-06T17:47:29Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。