論文の概要: Reasoning Pattern Matters: Learning to Reason without Human Rationales
- arxiv url: http://arxiv.org/abs/2510.12643v1
- Date: Tue, 14 Oct 2025 15:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.37754
- Title: Reasoning Pattern Matters: Learning to Reason without Human Rationales
- Title(参考訳): パターンを推論する:人間の合理性なしに推論を学ぶ
- Authors: Chaoxu Pang, Yixuan Cao, Ping Luo,
- Abstract要約: 大規模言語モデル(LLM)は、広く採用されているSFT+RLVRパラダイムの下で顕著な推論能力を示している。
本稿では,推論性能を損なうことなく,合理的アノテーションのコストを大幅に削減する方法について検討する。
- 参考スコア(独自算出の注目度): 27.684703630371043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities under the widely adopted SFT+RLVR paradigm, which first performs Supervised Fine-Tuning (SFT) on human-annotated reasoning trajectories (rationales) to establish initial reasoning behaviors, then applies Reinforcement Learning with Verifiable Rewards (RLVR) to optimize the model using verifiable signals without golden rationales. However, annotating high-quality rationales for the SFT stage remains prohibitively expensive. This paper investigates when and how rationale annotation costs can be substantially reduced without compromising reasoning performance. We identify a broad class of problems, termed patterned reasoning tasks, where reasoning follows a fixed, procedural strategy consistent across instances. Although instances vary in content such as domain knowledge, factual information, or numeric values, the solution derives from applying a shared reasoning pattern. We argue that the success of SFT+RLVR on such tasks primarily stems from its ability to enable models to internalize these reasoning patterns. Using numerical semantic matching as a representative task, we provide both causal and behavioral evidence showing that reasoning patterns rather than the quantity or quality of rationales are the key determinant of performance. Building on these insights, we propose Pattern-Aware LLMs as Rationale AnnOtators (PARO), a simple yet effective framework that enables LLMs to generate rationales aligned with task-specific reasoning patterns without requiring human rationale annotations. Experiments show that PARO-generated rationales achieve comparable SFT+RLVR performance to human rationales that are 10 times larger. These results suggest that large-scale human rationale annotations can be replaced with LLM-based automatic annotations requiring only limited human supervision over reasoning patterns.
- Abstract(参考訳): 大規模言語モデル (LLM) は、まず人間に注釈を付けた推論軌跡 (rationales) にスーパーバイザード・ファインタニング (SFT) を施し、最初の推論行動を確立し、次にRLVR (Reinforcement Learning with Verifiable Rewards) を適用して、金の有理性のない検証可能な信号を用いてモデルを最適化する、広く採用されているSFT+RLVRパラダイムの下で、顕著な推論能力を示した。
しかしながら、SFTステージの高品質な論理を注釈付けすることは、違法に高価である。
本稿では,推論性能を損なうことなく,合理的アノテーションのコストを大幅に削減する方法について検討する。
我々は、パターン推論タスクと呼ばれる幅広い問題のクラスを特定し、推論はインスタンス間で一貫性のある固定された手続き的戦略に従う。
例はドメイン知識、事実情報、数値値などの内容によって異なるが、ソリューションは共通の推論パターンを適用することから導かれる。
このようなタスクにおけるSFT+RLVRの成功は主に、モデルがこれらの推論パターンを内部化できるようにする能力に起因している、と我々は主張する。
数値的セマンティックマッチングを代表課題として用いて,理性量や品質よりも推論パターンが性能の重要な決定要因であることを示す因果的および行動的証拠を提示する。
これらの知見に基づいて,LLM を Rationale AnnOtators (PARO) としてパターン認識 LLM を提案する。
実験により、PARO生成した有理数では、人間の10倍の有理数に対して、SFT+RLVRの性能が達成された。
これらの結果から,大規模人為的合理化アノテーションをLLMに基づく自動アノテーションに置き換えるには,推論パターンに対する人的監督が限定されることが示唆された。
関連論文リスト
- Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality [1.5994376682356057]
本稿では,変数が与えられた候補変数,入出力試行,事前定義された論理関数をどの変数が決定するかを推定する可変属性タスクを提案する。
どちらのモデルも、複雑さが増加するにつれて、ブルートフォースから分析戦略への移行を示す。
これらの結果から,コストベースの報酬を伴わないモデルでも,タスクの複雑さに応じて推論動作を調整できることが示唆された。
論文 参考訳(メタデータ) (2026-02-10T22:07:05Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision [43.05159920832912]
大規模言語モデル(LLM)は多くの推論ベンチマークで高いパフォーマンスを示している。
LLMはコンテンツのバリエーションに影響を受けやすく、堅牢な計画や象徴的な抽象化の欠如を示している。
そこで我々は,段階的に擬似ラベルで高品質な記号推論軌道を合成することで,そのような制限を克服することを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:06:39Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - RATIONALYST: Mining Implicit Rationales for Process Supervision of Reasoning [41.9992614617405]
本稿では,事前学習に基づく推論のプロセス・スーパービジョンのモデルであるRATIONALYSTを紹介する。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
論文 参考訳(メタデータ) (2024-10-01T20:05:51Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。