論文の概要: Cumulative Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2308.04371v3
- Date: Thu, 10 Aug 2023 08:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:09:42.103507
- Title: Cumulative Reasoning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた累積推論
- Authors: Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao
- Abstract要約: 累積推論は、人間の思考過程をエミュレートするために累積的かつ反復的に言語モデルを採用する。
論理推論タスクでは、CRは既存のメソッドを最大9.3%上回っている。
24のゲームでは、CRは94%の精度を達成する。
- 参考スコア(独自算出の注目度): 13.410552577861587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language models are powerful and versatile, they often fail to address
highly complex problems. This is because solving complex problems requires
deliberate thinking, which has been only minimally guided during training. In
this paper, we propose a new method called Cumulative Reasoning (CR), which
employs language models in a cumulative and iterative manner to emulate human
thought processes. By decomposing tasks into smaller components, CR streamlines
the problem-solving process, rendering it both more manageable and effective.
For logical inference tasks, CR consistently outperforms existing methods with
an improvement up to 9.3%, and achieves the astonishing accuracy of 98.04% on
the curated FOLIO wiki dataset. In the context of the Game of 24, CR achieves
an accuracy of 94%, which signifies a substantial enhancement of 20% over the
previous state-of-the-art method (code is available at
https://github.com/iiis-ai/cumulative-reasoning).
- Abstract(参考訳): 言語モデルは強力で多用途であるが、しばしば非常に複雑な問題に対処できない。
これは、複雑な問題を解決するには意図的な思考が必要であり、トレーニングの間は最小限の指導しか行われていないからである。
本稿では,言語モデルを累積的かつ反復的に活用し,人間の思考過程をエミュレートするCumulative Reasoning(CR)という新しい手法を提案する。
タスクを小さなコンポーネントに分解することで、CRは問題解決プロセスを合理化し、より管理しやすく、効果的にする。
論理推論タスクでは、CRは既存のメソッドを9.3%改善し、計算されたFOLIO wikiデータセットで98.04%の驚くべき精度を達成する。
24ゲームの文脈では、CRは94%の精度を達成しており、これは従来の最先端手法よりも20%の大幅な向上を示している(コードはhttps://github.com/iiis-ai/cumulative-reasoningで入手できる)。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案手法は,GSM8K,MATH,SciQ上でのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Augmenting Math Word Problems via Iterative Question Composing [8.186291374940595]
本稿では,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。
Qwen-72B-MMIQCは45.0%の精度を達成し、以前のオープンソースの現状を8.2%上回っている。
論文 参考訳(メタデータ) (2024-01-17T06:48:16Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。