論文の概要: Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.14620v1
- Date: Thu, 16 Oct 2025 12:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.848022
- Title: Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models
- Title(参考訳): コード駆動数列計算:大言語モデルの帰納的推論能力の向上
- Authors: Kedi Chen, Zhikai Lei, Xu Guo, Xuecheng Wu, Siyuan Zeng, Jianghao Yin, Yinqi Zhang, Qin Chen, Jie Zhou, Liang He, Qipeng Guo, Kai Chen, Wei Zhang,
- Abstract要約: textitCodeSeqは,数列から構築した合成後トレーニングデータセットである。
パイプラインは、失敗したテストケースを反映し、反復的な修正を取り入れることで、教師付き微妙なデータを生成する。
実験の結果,textitCodeSeqでトレーニングしたモデルでは,様々な推論タスクが改善され,OOD性能が保たれることがわかった。
- 参考スコア(独自算出の注目度): 44.17697803306198
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) make remarkable progress in reasoning tasks. Among different reasoning modes, inductive reasoning, due to its better alignment with human learning, attracts increasing interest. However, research on inductive reasoning faces certain challenges. First, existing inductive data mostly focuses on superficial regularities while lacking more complex internal patterns. Second, current works merely prompt LLMs or finetune on simple prompt-response pairs, but do not provide precise thinking processes nor implement difficulty control. Unlike previous work, we address these challenges by introducing \textit{CodeSeq}, a synthetic post-training dataset built from number sequences. We package number sequences into algorithmic problems to discover their general terms, defining a general term generation (GTG) task correspondingly. Our pipeline generates supervised finetuning data by reflecting on failed test cases and incorporating iterative corrections, thereby teaching LLMs to learn autonomous case generation and self-checking. Additionally, it leverages reinforcement learning with a novel Case-Synergy Solvability Scaling Reward based on both solvability, estimated from the problem pass rate, and the success rate of self-directed case generation, enabling models to learn more effectively from both successes and failures. Experimental results show that the models trained with \textit{CodeSeq} improve on various reasoning tasks and can preserve the models' OOD performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクにおいて顕著に進歩する。
様々な推論モードの中で、人間の学習との整合性が良く、帰納的推論が関心を惹きつける。
しかし、帰納的推論の研究はある種の課題に直面している。
まず、既存の帰納的データは、より複雑な内部パターンを欠きながら表面的な規則性に焦点を当てている。
第二に、現在の作業は単に単純なプロンプト-レスポンスペアに対してLSMやファインチューンを誘導するだけであるが、正確な思考プロセスを提供しておらず、難易度制御を実装していない。
従来の研究とは異なり、数値列から構築された合成後トレーニングデータセットである‘textit{CodeSeq}’を導入することで、これらの課題に対処する。
数値列をアルゴリズム的な問題にまとめてそれらの一般用語を探索し、それに対応する一般用語生成(GTG)タスクを定義する。
パイプラインは、失敗したテストケースを反映し、反復的な修正を取り入れて教師付き微調整データを生成し、LSMに自律的なケース生成と自己チェックの学習を教える。
さらに、問題パス率から推定される可解性と自己指向のケース生成の成功率の両方に基づいて、新しいケース・シネギー・ソルバビリティ・スケーリング・リワード(Case-Synergy Solvability Scaling Reward)による強化学習を活用し、モデルが成功と失敗の両方からより効果的に学習できるようにする。
実験結果から, <textit{CodeSeq} でトレーニングしたモデルは, 様々な推論タスクを改善し, モデルの OOD 性能を維持できることが示唆された。
関連論文リスト
- Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。