論文の概要: General-Reasoner: Advancing LLM Reasoning Across All Domains
- arxiv url: http://arxiv.org/abs/2505.14652v2
- Date: Wed, 21 May 2025 17:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.373196
- Title: General-Reasoner: Advancing LLM Reasoning Across All Domains
- Title(参考訳): ジェネラル・レゾナー:全てのドメインでLLMレゾネートを促進する
- Authors: Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun Ma, Wenhu Chen,
- Abstract要約: 強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
- 参考スコア(独自算出の注目度): 64.70599911897595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the "Zero" reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.
- Abstract(参考訳): 強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
特に、Deepseek-R1-Zeroが導入した"Zero"強化学習は、中間的な微調整段階に依存することなく、ベースLLMの直接RL訓練を可能にする。
これらの進歩にもかかわらず、LLM推論の現在の研究は、主にデータ豊富さと答え検証の容易さのために、数学的およびコーディング領域に焦点を当てている。
これにより、そのようなモデルの適用性と一般化は制限され、質問は様々な回答表現を持ち、データはより少ない。
本稿では,多様な領域にまたがるLLM推論能力の向上を目的とした,新しいトレーニングパラダイムであるGeneral-Reasonerを提案する。
本研究の主な貢献は,(1)Webクローリングによって計算された検証可能な回答を伴う大規模で高品質な質問データセットの構築,(2)従来のルールベースの検証をチェーン・オブ・コンテクスト・アウェアネスの能力に置き換えた生成モデルベースの回答検証器の開発である。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
これらの12のベンチマーク(例えばMMLU-Pro,GPQA,SuperGPQA,TheoremQA,BBEH,MATH AMC)の総合的な評価は、ジェネラル・レーソナーが既存のベースライン法より優れており、数学的推論タスクにおいて優れた効率を維持しつつ、堅牢で一般化可能な推論性能を達成していることを示す。
関連論文リスト
- Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文 参考訳(メタデータ) (2024-08-22T08:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。