論文の概要: RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
- arxiv url: http://arxiv.org/abs/2410.01044v1
- Date: Tue, 1 Oct 2024 20:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 23:30:27.768267
- Title: RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
- Title(参考訳): RATIONALYST: 推論を改善するための事前トレーニングプロセス-スーパービジョン
- Authors: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: 本稿では,事前学習に基づく推論のプロセス・スーパービジョンのモデルであるRATIONALYSTを紹介する。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
- 参考スコア(独自算出の注目度): 41.9992614617405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.
- Abstract(参考訳): LLMが生成する推論ステップは、トレーニング前のデータに見られる日常的なコミュニケーションに共通する論理的な跳躍を模倣しているため、不完全であるかもしれない。
この課題に対処するために,未ラベルデータから抽出した大量の論理的アノテーションの事前学習に基づく推論のプロセス・スーパービジョンモデル RATIONALYST を紹介した。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
このウェブスケールの推論のための事前学習により、TRIALYSTは数学的、常識的、科学的、論理的推論を含む様々な推論タスクを一貫して一般化することができる。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
また、GPT-4のようなかなり大きな検証器や、一致するトレーニングセットに微調整された同様のサイズのモデルと比較して、優れた性能を示す。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Evaluating Social Biases in LLM Reasoning [19.824838766883534]
本稿では,DeepSeek-R1 の 8B と 32B の変種を,BBQ データセット上の命令調整版と比較した。
我々の知る限りでは、この実証的研究は、LLM推論におけるバイアス問題を初めて評価するものである。
論文 参考訳(メタデータ) (2025-02-21T10:16:07Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。