論文の概要: ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2506.15211v1
- Date: Wed, 18 Jun 2025 07:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.576204
- Title: ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
- Title(参考訳): プロト推論 : LLMにおける一般化可能な推論の基礎としてのプロトタイプ
- Authors: Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan,
- Abstract要約: ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
- 参考スコア(独自算出の注目度): 54.154593699263074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Reasoning Models (LRMs) trained with Long Chain-of-Thought (Long CoT) reasoning have demonstrated remarkable cross-domain generalization capabilities. However, the underlying mechanisms supporting such transfer remain poorly understood. We hypothesize that cross-domain generalization arises from shared abstract reasoning prototypes -- fundamental reasoning patterns that capture the essence of problems across domains. These prototypes minimize the nuances of the representation, revealing that seemingly diverse tasks are grounded in shared reasoning structures.Based on this hypothesis, we propose ProtoReasoning, a framework that enhances the reasoning ability of LLMs by leveraging scalable and verifiable prototypical representations (Prolog for logical reasoning, PDDL for planning).ProtoReasoning features: (1) an automated prototype construction pipeline that transforms problems into corresponding prototype representations; (2) a comprehensive verification system providing reliable feedback through Prolog/PDDL interpreters; (3) the scalability to synthesize problems arbitrarily within prototype space while ensuring correctness. Extensive experiments show that ProtoReasoning achieves 4.7% improvement over baseline models on logical reasoning (Enigmata-Eval), 6.3% improvement on planning tasks, 4.0% improvement on general reasoning (MMLU) and 1.0% on mathematics (AIME24). Significantly, our ablation studies confirm that learning in prototype space also demonstrates enhanced generalization to structurally similar problems compared to training solely on natural language representations, validating our hypothesis that reasoning prototypes serve as the foundation for generalizable reasoning in large language models.
- Abstract(参考訳): 近年,Long Chain-of-Thought (Long CoT) 推論で訓練されたLarge Reasoning Models (LRMs) の進歩により,ドメイン間の一般化能力が著しく向上した。
しかし、そのような転移を支えるメカニズムはいまだに理解されていない。
ドメイン間の一般化は、ドメイン間の問題の本質を捉える基本的な推論パターンである、共通の抽象的推論のプロトタイプから生じる、という仮説を立てる。
これらのプロトタイプは、表現のニュアンスを最小限に抑え、一見多様なタスクが共有推論構造に基礎を置いていることを明らかにする。この仮説に基づいて、スケーラブルで検証可能なプロトタイプ表現(論理推論のProlog、計画のためのPDDL)を活用してLLMの推論能力を高めるフレームワークであるProtoReasoningを提案する。
ProtoReasoning の特徴は,(1) 問題を対応するプロトタイプ表現に変換する自動プロトタイプ構築パイプライン,(2) Prolog/PDDLインタプリタによる信頼性の高いフィードバックを提供する総合的な検証システム,(3) プロトタイプ空間内で問題を任意に合成し,正確性を確保するスケーラビリティである。
大規模実験により, 論理的推論に基づくベースラインモデル(Enigmata-Eval)よりも4.7%, 計画タスクが6.3%, 一般推論(MMLU)が4.0%, 数学が1.0%向上した(AIME24)。
本研究は, 原型空間における学習が, 自然言語表現のみによる学習に比べて, 構造的に類似した問題への一般化の促進を証明し, 推論プロトタイプが大規模言語モデルにおける一般化可能な推論の基礎となるという仮説を検証した。
関連論文リスト
- Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [34.29839553042609]
本研究では,3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを提案する。
微調整時の監督形式の効果について検討する。
この結果から, 自然言語指導は, アウト・オブ・ディストリビューションや長文タスクにも強い一般化をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。