論文の概要: SPICE: Self-Play In Corpus Environments Improves Reasoning
- arxiv url: http://arxiv.org/abs/2510.24684v1
- Date: Tue, 28 Oct 2025 17:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.316375
- Title: SPICE: Self-Play In Corpus Environments Improves Reasoning
- Title(参考訳): SPICE: 企業環境におけるセルフプレイは推論を改善する
- Authors: Bo Liu, Chuanyang Jin, Seungone Kim, Weizhe Yuan, Wenting Zhao, Ilia Kulikov, Xian Li, Sainbayar Sukhbaatar, Jack Lanchantin, Jason Weston,
- Abstract要約: SPICEは、単一のモデルが2つの役割で機能する強化学習フレームワークである。
チャレンジャーは、様々な推論タスクを生成するために、大きなコーパスから文書をマイニングする。
本分析は,SPICEにおける文書の基盤化が,ますます困難な目標を連続的に生み出す上で,いかに重要な要素であるかを明らかにする。
- 参考スコア(独自算出の注目度): 58.78992702325821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-improving systems require environmental interaction for continuous adaptation. We introduce SPICE (Self-Play In Corpus Environments), a reinforcement learning framework where a single model acts in two roles: a Challenger that mines documents from a large corpus to generate diverse reasoning tasks, and a Reasoner that solves them. Through adversarial dynamics, the Challenger creates an automatic curriculum at the frontier of the Reasoner's capability, while corpus grounding provides the rich, near-inexhaustible external signal necessary for sustained improvement. Unlike existing ungrounded self-play methods that offer more limited benefits, SPICE achieves consistent gains across mathematical (+8.9%) and general reasoning (+9.8%) benchmarks on multiple model families. Our analysis reveals how document grounding is a key ingredient in SPICE to continuously generate its own increasingly challenging goals and achieve them, enabling sustained self-improvement.
- Abstract(参考訳): 自己改善システムは継続的適応のために環境相互作用を必要とする。
SPICE(Self-Play In Corpus Environments)は,大規模コーパスから文書をマイニングして多種多様な推論タスクを生成するチャレンジャーと,それらを解くReasonerの2つの役割を持つ強化学習フレームワークである。
対向力学により、チャレンジャーはレアソナーの能力の最前線で自動カリキュラムを作成し、コーパスグラウンドリングは、持続的な改善に必要なリッチでほぼ不可能な外部信号を提供する。
より限定的な利益をもたらす既存の未解決のセルフプレイ法とは異なり、SPICEは数式 (+8.9%) と一般的な推論 (+9.8%) のベンチマークを複数のモデルファミリで一貫した利得を達成している。
本分析は,SPICEにおける文書の基盤化が,ますます困難な目標を連続的に生成し,達成し,持続的な自己改善を実現する上で,いかに重要な要素であるかを明らかにする。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.2144357080404]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文 参考訳(メタデータ) (2025-10-08T17:46:27Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model [0.0]
本稿では,InDRiVE(Intrinsic Disagreement based Reinforcement for Vehicle Exploration)をモデルベース強化学習フレームワークとして提案する。
エージェントは、世界モデルのアンサンブルを訓練することにより、タスク固有のフィードバックなしで、環境の不確実性の高い領域を積極的に探索する。
InDRiVEはDreamerV2やDreamerV3に比べて高い成功率と少ない屈折率を達成している。
論文 参考訳(メタデータ) (2025-03-07T16:56:00Z) - Regularity as Intrinsic Reward for Free Play [24.29379265146469]
本稿では,本質的な強化学習のための新たな報奨信号として正規性を提案する。
Intrinsic Reward (RaIR) として正規性を一般化した定式化により,モデルベース強化学習内での運用が可能となった。
論文 参考訳(メタデータ) (2023-12-03T18:18:44Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - REAL-X -- Robot open-Ended Autonomous Learning Architectures: Achieving
Truly End-to-End Sensorimotor Autonomous Learning Systems [0.0]
先程提案されたREALコンペティションによる課題について検討する。
本稿では,ベンチマークの異なるバージョンを解くことができるREAL-Xロボットアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-27T18:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。