論文の概要: Cumulative Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2308.04371v6
- Date: Tue, 2 Apr 2024 03:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:22:09.692411
- Title: Cumulative Reasoning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた累積推論
- Authors: Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao,
- Abstract要約: 累積推論(CR)は、累積的かつ反復的に言語モデルを利用する新しいアプローチである。
いくつかの複雑な推論タスクを通してCRの優位性を実証する。
CRはMATHデータセットに新しい最先端技術を設定する。
- 参考スコア(独自算出の注目度): 12.267474250936123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advancements in language models (LMs), their ability to solve complex problems remains limited. This paper introduces Cumulative Reasoning (CR), a novel approach that utilizes LMs cumulatively and iteratively, mirroring human thought processes for problem-solving. CR decomposes tasks into smaller, manageable components and leverages previous propositions for effective composition, significantly enhancing problem-solving capabilities. We demonstrate CR's superiority through several complex reasoning tasks: it outperforms existing methods in logical inference tasks with up to a 9.3% improvement, achieving 98.04% accuracy on the curated FOLIO wiki dataset. In the Game of 24, it achieves 98% accuracy, marking a 24% improvement over the prior state-of-the-art. Additionally, CR sets new state-of-the-art on the MATH dataset, achieving a 4.2% increase from previous methods and a 43% relative improvement in the most challenging problems. By extending CR to incorporate a code environment without external aids like retrieval or web browsing, we further harness the computational and logical reasoning capabilities of LMs, achieving a remarkable 72.2% accuracy on the MATH dataset and outperforming the PAL/PoT method by 38.8%. Our work not only sets new state-of-the-art but also paves the way toward more sophisticated AI reasoning methods. The code is available at https://github.com/iiis-ai/cumulative-reasoning.
- Abstract(参考訳): 近年の言語モデル(LM)の進歩にもかかわらず、複雑な問題を解く能力は依然として限られている。
本稿では,LMを累積的かつ反復的に活用する新しい手法である累積推論(CR)を紹介し,問題解決のための人間の思考過程を反映する。
CRはタスクをより小さく管理可能なコンポーネントに分解し、既存の提案を効果的な構成に活用し、問題解決能力を著しく向上させる。
CRは論理推論タスクにおける既存のメソッドを最大9.3%改善し、キュレートされたFOLIO wikiデータセットで98.04%の精度を達成した。
24のゲームでは98%の精度を達成し、以前の最先端よりも24%向上した。
さらに、CRはMATHデータセットに新しい最先端技術を設定し、従来の方法から4.2%増加し、最も難しい問題では43%改善した。
CRを検索やWebブラウジングといった外部の助けなしにコード環境を組み込むように拡張することにより、LMの計算的および論理的推論能力をさらに活用し、MATHデータセット上で72.2%の精度を達成し、PAL/PoT法を38.8%上回る結果となった。
我々の研究は、新しい最先端のAI推論手法を策定するだけでなく、より洗練されたAI推論手法への道を開く。
コードはhttps://github.com/iiis-ai/cumulative-reasoning.comから入手できる。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案手法は,GSM8K,MATH,SciQ上でのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Augmenting Math Word Problems via Iterative Question Composing [8.186291374940595]
本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
論文 参考訳(メタデータ) (2024-01-17T06:48:16Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。