論文の概要: Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes
- arxiv url: http://arxiv.org/abs/2402.10654v1
- Date: Fri, 16 Feb 2024 13:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:15:09.155304
- Title: Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes
- Title(参考訳): 信頼できる推論過程の指導による数値推論の強化
- Authors: Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che
- Abstract要約: Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 55.2326738851157
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerical reasoning is an essential ability for NLP systems to handle numeric
information. Recent research indicates that fine-tuning a small-scale model to
learn generating reasoning processes alongside answers can significantly
enhance performance. However, current methods have the limitation that most
methods generate reasoning processes with large language models (LLMs), which
are "unreliable" since such processes could contain information unrelated to
the answer. To address this limitation, we introduce Enhancing NumeriCal
reasOning with Reliable procEsses (Encore), which derives the reliable
reasoning process by decomposing the answer formula, ensuring which fully
supports the answer. Nevertheless, models could lack enough data to learn the
reasoning process generation adequately, since our method generates only one
single reasoning process for one formula. To overcome this difficulty, we
present a series of pre-training tasks to help models learn the reasoning
process generation with synthesized data. The experiments show that Encore
yields improvement on all five experimental datasets with an average of 1.8%,
proving the effectiveness of our method.
- Abstract(参考訳): 数値推論は、数値情報を扱うNLPシステムにとって不可欠な能力である。
近年の研究では,回答に付随する推論過程を学習するための小型モデルの微調整が,性能を著しく向上させることが示唆されている。
しかし、現在の手法では、ほとんどの方法が大きな言語モデル(llm)を持つ推論プロセスを生成するという制限があり、そのようなプロセスは答えと無関係な情報を含む可能性があるため「信頼できない」。
そこで本研究では,この制約に対処するために,解公式を分解し,その解を完全に支持するかを保証することで,信頼性の高い推論プロセスを導出する,信頼性の高いプロセス(encore)による数値推論の強化を提案する。
それにもかかわらず、モデルには推論プロセス生成を適切に学習するのに十分なデータが不足する可能性がある。
この課題を克服するために,モデルが合成データを用いて推論過程を学習するための事前学習タスクを提案する。
実験の結果,Encoreは平均1.8%の5つの実験データセットを改良し,本手法の有効性を実証した。
関連論文リスト
- Patience Is The Key to Large Language Model Reasoning [0.0]
そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。
我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。
この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大6.7%向上した。
論文 参考訳(メタデータ) (2024-11-20T07:20:48Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z) - An Hybrid Method for the Estimation of the Breast Mechanical Parameters [0.9176056742068814]
正確な数値乳房モデルは、手術シミュレーションの結果、乳房の視覚情報を外科医に提供することができる。
モデルパラメータを見つけるプロセスは、医療画像技術または他の測定基準に基づく数値入力を必要とする。
逆弾性解法は非常に堅牢であり、必要な精度で解を提供する。
ニューラルネットワークのようなディープラーニング手法は、ほとんどのケースで正確な結果が得られる。
論文 参考訳(メタデータ) (2020-03-09T11:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。