論文の概要: Reasoning Pattern Matters: Learning to Reason without Human Rationales
- arxiv url: http://arxiv.org/abs/2510.12643v1
- Date: Tue, 14 Oct 2025 15:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.37754
- Title: Reasoning Pattern Matters: Learning to Reason without Human Rationales
- Title(参考訳): パターンを推論する:人間の合理性なしに推論を学ぶ
- Authors: Chaoxu Pang, Yixuan Cao, Ping Luo,
- Abstract要約: 大規模言語モデル(LLM)は、広く採用されているSFT+RLVRパラダイムの下で顕著な推論能力を示している。
本稿では,推論性能を損なうことなく,合理的アノテーションのコストを大幅に削減する方法について検討する。
- 参考スコア(独自算出の注目度): 27.684703630371043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities under the widely adopted SFT+RLVR paradigm, which first performs Supervised Fine-Tuning (SFT) on human-annotated reasoning trajectories (rationales) to establish initial reasoning behaviors, then applies Reinforcement Learning with Verifiable Rewards (RLVR) to optimize the model using verifiable signals without golden rationales. However, annotating high-quality rationales for the SFT stage remains prohibitively expensive. This paper investigates when and how rationale annotation costs can be substantially reduced without compromising reasoning performance. We identify a broad class of problems, termed patterned reasoning tasks, where reasoning follows a fixed, procedural strategy consistent across instances. Although instances vary in content such as domain knowledge, factual information, or numeric values, the solution derives from applying a shared reasoning pattern. We argue that the success of SFT+RLVR on such tasks primarily stems from its ability to enable models to internalize these reasoning patterns. Using numerical semantic matching as a representative task, we provide both causal and behavioral evidence showing that reasoning patterns rather than the quantity or quality of rationales are the key determinant of performance. Building on these insights, we propose Pattern-Aware LLMs as Rationale AnnOtators (PARO), a simple yet effective framework that enables LLMs to generate rationales aligned with task-specific reasoning patterns without requiring human rationale annotations. Experiments show that PARO-generated rationales achieve comparable SFT+RLVR performance to human rationales that are 10 times larger. These results suggest that large-scale human rationale annotations can be replaced with LLM-based automatic annotations requiring only limited human supervision over reasoning patterns.
- Abstract(参考訳): 大規模言語モデル (LLM) は、まず人間に注釈を付けた推論軌跡 (rationales) にスーパーバイザード・ファインタニング (SFT) を施し、最初の推論行動を確立し、次にRLVR (Reinforcement Learning with Verifiable Rewards) を適用して、金の有理性のない検証可能な信号を用いてモデルを最適化する、広く採用されているSFT+RLVRパラダイムの下で、顕著な推論能力を示した。
しかしながら、SFTステージの高品質な論理を注釈付けすることは、違法に高価である。
本稿では,推論性能を損なうことなく,合理的アノテーションのコストを大幅に削減する方法について検討する。
我々は、パターン推論タスクと呼ばれる幅広い問題のクラスを特定し、推論はインスタンス間で一貫性のある固定された手続き的戦略に従う。
例はドメイン知識、事実情報、数値値などの内容によって異なるが、ソリューションは共通の推論パターンを適用することから導かれる。
このようなタスクにおけるSFT+RLVRの成功は主に、モデルがこれらの推論パターンを内部化できるようにする能力に起因している、と我々は主張する。
数値的セマンティックマッチングを代表課題として用いて,理性量や品質よりも推論パターンが性能の重要な決定要因であることを示す因果的および行動的証拠を提示する。
これらの知見に基づいて,LLM を Rationale AnnOtators (PARO) としてパターン認識 LLM を提案する。
実験により、PARO生成した有理数では、人間の10倍の有理数に対して、SFT+RLVRの性能が達成された。
これらの結果から,大規模人為的合理化アノテーションをLLMに基づく自動アノテーションに置き換えるには,推論パターンに対する人的監督が限定されることが示唆された。
関連論文リスト
- Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision [43.05159920832912]
大規模言語モデル(LLM)は多くの推論ベンチマークで高いパフォーマンスを示している。
LLMはコンテンツのバリエーションに影響を受けやすく、堅牢な計画や象徴的な抽象化の欠如を示している。
そこで我々は,段階的に擬似ラベルで高品質な記号推論軌道を合成することで,そのような制限を克服することを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:06:39Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - RATIONALYST: Mining Implicit Rationales for Process Supervision of Reasoning [41.9992614617405]
本稿では,事前学習に基づく推論のプロセス・スーパービジョンのモデルであるRATIONALYSTを紹介する。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
論文 参考訳(メタデータ) (2024-10-01T20:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。