論文の概要: Cumulative Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2308.04371v5
- Date: Sat, 2 Dec 2023 02:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:45:39.889195
- Title: Cumulative Reasoning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた累積推論
- Authors: Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao
- Abstract要約: 累積推論は、人間の思考過程をエミュレートするために累積的かつ反復的に言語モデルを採用する。
論理推論タスクでは、CRは既存のメソッドを最大9.3%上回っている。
24のゲームでは、CRは98%の精度を達成するが、これは従来の最先端手法よりも24%の大幅な向上を示している。
- 参考スコア(独自算出の注目度): 13.401334329806359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language models are powerful and versatile, they often fail to address
highly complex problems. This is because solving complex problems requires
deliberate thinking, which has been only minimally guided during training. In
this paper, we propose a new method called Cumulative Reasoning (CR), which
employs language models in a cumulative and iterative manner to emulate human
thought processes. By decomposing tasks into smaller components, CR streamlines
the problem-solving process, rendering it both more manageable and effective.
For logical inference tasks, CR consistently outperforms existing methods with
an improvement up to 9.3%, and achieves an accuracy of 98.04% on the curated
FOLIO wiki dataset. In the context of the Game of 24, CR achieves an accuracy
of 98%, which signifies a substantial enhancement of 24% over the previous
state-of-the-art method. Finally, on the MATH dataset, we establish new
state-of-the-art results with 58.0% overall accuracy, surpassing the previous
best approach by a margin of 4.2%, and achieving 43% relative improvement on
the hardest level 5 problems (22.4% to 32.1%). Additionally, we expand the
concept of Cumulative Reasoning to incorporate a Python code environment,
deliberately omitting external aids such as retrieval and web browsing and
focusing solely on the LLM's intrinsic reasoning capabilities within a Python
code environment. Our experiments in this setting yielded impressive results,
with an overall accuracy of 72.2% on the MATH dataset, significantly
outperforming the PAL method with 38.8% relative improvement. Code is available
at https://github.com/iiis-ai/cumulative-reasoning.
- Abstract(参考訳): 言語モデルは強力で多用途であるが、しばしば非常に複雑な問題に対処できない。
これは、複雑な問題を解決するには意図的な思考が必要であり、トレーニングの間は最小限の指導しか行われていないからである。
本稿では,言語モデルを累積的かつ反復的に活用し,人間の思考過程をエミュレートするCumulative Reasoning(CR)という新しい手法を提案する。
タスクを小さなコンポーネントに分解することで、CRは問題解決プロセスを合理化し、より管理しやすく、効果的にする。
論理推論タスクでは、CRは既存のメソッドを9.3%向上させ、キュレートされたFOLIO wikiデータセットで98.04%の精度を達成する。
24のゲームでは、CRは98%の精度を達成し、従来の最先端手法よりも24%の大幅な向上を示している。
最後に,計算データセット上では,従来のベストアプローチを4.2%上回って58.0%の精度で新たな最先端結果を確立し,最も難しいレベル5問題(22.4%から32.1%)に対して43%の相対的改善を達成している。
さらに,累積推論の概念を拡張して,Pythonコード環境を組み込むとともに,検索やWebブラウジングなどの外部支援を意図的に省略し,Pythonコード環境内のLLM固有の推論機能にのみ焦点をあてる。
この環境での実験では、MATHデータセットの全体的な精度は72.2%で、PAL法よりも38.8%向上した。
コードはhttps://github.com/iiis-ai/cumulative-reasoningで入手できる。
関連論文リスト
- Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Automated Root Causing of Cloud Incidents using In-Context Learning with
GPT-4 [23.856839017006386]
ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。
GPT-4モデルの巨大なサイズは、ユーザデータにそれを微調整しようとする際の課題を示す。
そこで本研究では,自動ルート生成のためのコンテキスト内学習手法を提案し,微調整の必要性を排除した。
論文 参考訳(メタデータ) (2024-01-24T21:02:07Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Improving Machine Learning Robustness via Adversarial Training [3.7942983866014073]
本研究では,中央集権・分散環境における対人訓練によるMLの堅牢性について検討する。
中央集権環境では,敵の例を分類すると65.41%,83.0%の検査精度が得られる。
分散環境下では,独立・同一分散(IID)と非IIDデータを用いた対人訓練を用いて,フェデレートラーニング(FL)の堅牢性について検討する。
論文 参考訳(メタデータ) (2023-09-22T02:43:04Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。