論文の概要: RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
- arxiv url: http://arxiv.org/abs/2410.01044v1
- Date: Tue, 01 Oct 2024 20:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:25:53.314222
- Title: RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
- Title(参考訳): RATIONALYST: 推論を改善するための事前トレーニングプロセス-スーパービジョン
- Authors: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: 本稿では,事前学習に基づく推論のプロセス・スーパービジョンのモデルであるRATIONALYSTを紹介する。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
- 参考スコア(独自算出の注目度): 41.9992614617405
- License:
- Abstract: The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.
- Abstract(参考訳): LLMが生成する推論ステップは、トレーニング前のデータに見られる日常的なコミュニケーションに共通する論理的な跳躍を模倣しているため、不完全であるかもしれない。
この課題に対処するために,未ラベルデータから抽出した大量の論理的アノテーションの事前学習に基づく推論のプロセス・スーパービジョンモデル RATIONALYST を紹介した。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
このウェブスケールの推論のための事前学習により、TRIALYSTは数学的、常識的、科学的、論理的推論を含む様々な推論タスクを一貫して一般化することができる。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
また、GPT-4のようなかなり大きな検証器や、一致するトレーニングセットに微調整された同様のサイズのモデルと比較して、優れた性能を示す。
関連論文リスト
- General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - Bias-Augmented Consistency Training Reduces Biased Reasoning in
Chain-of-Thought [34.99438001331234]
思考の連鎖は、モデルの振る舞いに影響を与える要因を誤って表現する。
バイアス強化された一貫性トレーニングは、モデルにバイアスのないプロンプト間で一貫した推論を与えるように訓練する。
BCTをGPT-3.5-Turboに1つのバイアスで適用することで、保留タスクにおいてバイアス付き推論の率を86%削減できる。
論文 参考訳(メタデータ) (2024-03-08T18:41:42Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z) - Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation [13.887376297334258]
自然言語で表現された多段階推論のための反復型ニューラルネットワークであるIMA-GloVe-GAを紹介する。
本モデルでは,RNNに基づく反復型メモリニューラルネットワークを用いて推論を行う。
論文 参考訳(メタデータ) (2022-07-28T10:44:46Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。