論文の概要: OpenSIR: Open-Ended Self-Improving Reasoner
- arxiv url: http://arxiv.org/abs/2511.00602v1
- Date: Sat, 01 Nov 2025 16:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.857681
- Title: OpenSIR: Open-Ended Self-Improving Reasoner
- Title(参考訳): OpenSIR: Open-Ended Self-Improving Reasoner
- Authors: Wai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini,
- Abstract要約: 我々は,LLMが外部の監督なしに教師や学生の役割を交代させることで,新たな問題を発生・解決することを学ぶセルフプレイフレームワークであるOpen-Ended Self-Improving Reasoner(OpenSIR)を提案する。
新たな問題を生み出すために、OpenSIRは難易度と多様性の両方を最適化し、異なる概念を探求しながら適切に挑戦する問題に報いる。
分析の結果、OpenSIRは、難易度を適応的に調整し、多様な探索を推進し、基礎から先進数学へ自律的に進む教師学生の役割を共進化させることで、オープンエンドラーニングを実現していることが明らかとなった。
- 参考スコア(独自算出の注目度): 43.86430118914286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language model (LLM) reasoning through reinforcement learning rely on annotated datasets for verifiable rewards, which may limit models' ability to surpass human-level performance. While self-play offers a promising alternative, existing approaches depend on external verifiers or cannot learn open-endedly. We present Open-Ended Self-Improving Reasoner (OpenSIR), a self-play framework where an LLM learns to generate and solve novel problems by alternating teacher and student roles without external supervision. To generate novel problems, OpenSIR optimises for both difficulty and diversity, rewarding problems that challenge appropriately while exploring distinct concepts, enabling open-ended mathematical discovery. Starting from a single trivial seed problem, OpenSIR substantially improves instruction models: Llama-3.2-3B-Instruct advances from 73.9 to 78.3 on GSM8K, and from 28.8 to 34.4 on College Math, while Gemma-2-2B-Instruct rises from 38.5 to 58.7 on GSM8K. Our analyses reveal that OpenSIR achieves open-ended learning through co-evolving teacher-student roles that adaptively calibrate difficulty and drive diverse exploration, progressing autonomously from basic to advanced mathematics.
- Abstract(参考訳): 強化学習による大規模言語モデル(LLM)の推論の最近の進歩は、検証可能な報酬のための注釈付きデータセットに依存しており、モデルが人間レベルのパフォーマンスを超える能力を制限する可能性がある。
セルフプレイは有望な代替手段を提供するが、既存のアプローチは外部検証に依存するか、あるいはオープンに学習することができない。
我々は,LLMが外部の監督なしに教師や学生の役割を交代させることで,新たな問題を発生・解決することを学ぶセルフプレイフレームワークであるOpen-Ended Self-Improving Reasoner(OpenSIR)を提案する。
新たな問題を生み出すために、OpenSIRは難易度と多様性の両方を最適化し、異なる概念を探求しながら適切に挑戦する問題に報いる。
Llama-3.2-3B-インストラクトはGSM8Kでは73.9から78.3に、College Mathでは28.8から34.4に、Gemma-2-2B-インストラクトは38.5から58.7に向上した。
分析の結果、OpenSIRは、難易度を適応的に調整し、多様な探索を推進し、基礎から先進数学へ自律的に進む教師学生の役割を共進化させることで、オープンエンドラーニングを実現していることが明らかとなった。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering [31.38063794496179]
O$2$-Searcherは、強化学習を利用してオープンドメインのオープンエンドとクローズドエンドの両方の質問に対処する、新しい検索エージェントである。
厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。
O$2$-Searcherは3Bモデルのみを使用しており、O$2$-QA上でのLLMエージェントをはるかに上回っている。
論文 参考訳(メタデータ) (2025-05-22T12:17:13Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - LADDER: Self-Improving LLMs Through Recursive Problem Decomposition [0.0]
LADDERは、大規模言語モデルが問題解決能力を自律的に改善できるフレームワークである。
数学的統合の課題において, LADDERの有効性を実証する。
また、TTRLを導入し、推論時にテスト問題の変種について強化学習を行う。
論文 参考訳(メタデータ) (2025-03-02T05:16:43Z) - OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models [23.68266151581951]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の実際の精度を高めることが示されている。
既存の手法は、抽出された証拠を効果的に活用する際の限定的な推論能力に悩まされることが多い。
我々は,オープンソースLLMを用いたRAGにおける推論能力の向上を目的とした,新しいフレームワークであるOpen-RAGを紹介する。
論文 参考訳(メタデータ) (2024-10-02T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。