論文の概要: SD-E$^2$: Semantic Exploration for Reasoning Under Token Budgets
- arxiv url: http://arxiv.org/abs/2601.17982v1
- Date: Sun, 25 Jan 2026 20:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.569392
- Title: SD-E$^2$: Semantic Exploration for Reasoning Under Token Budgets
- Title(参考訳): SD-E$^2$:トークン予算下での推論のための意味探索
- Authors: Kshitij Mishra, Nils Lukas, Salem Lahlou,
- Abstract要約: スモールランゲージモデル(SLM)は、厳密な計算予算の下で探索が高価であるため、複雑な推論に苦しむ。
本稿では,探索を明示する強化学習フレームワークであるSemantic Diversity-Exploration-Exploitation (SD-E$2$)を紹介する。
- 参考スコア(独自算出の注目度): 13.878599089437648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small language models (SLMs) struggle with complex reasoning because exploration is expensive under tight compute budgets. We introduce Semantic Diversity-Exploration-Exploitation (SD-E$^2$), a reinforcement learning framework that makes exploration explicit by optimizing semantic diversity in generated reasoning trajectories. Using a frozen sentence-embedding model, SD-E$^2$ assigns a diversity reward that captures (i) the coverage of semantically distinct solution strategies and (ii) their average pairwise dissimilarity in embedding space, rather than surface-form novelty. This diversity reward is combined with outcome correctness and solution efficiency in a z-score-normalized multi-objective objective that stabilizes training. On GSM8K, SD-E$^2$ surpasses the base Qwen2.5-3B-Instruct and strong GRPO baselines (GRPO-CFL and GRPO-CFEE) by +27.4, +5.2, and +1.5 percentage points, respectively, while discovering on average 9.8 semantically distinct strategies per question. We further improve MedMCQA to 49.64% versus 38.37% for the base model and show gains on the harder AIME benchmark (1983-2025), reaching 13.28% versus 6.74% for the base. These results indicate that rewarding semantic novelty yields a more compute-efficient exploration-exploitation signal for training reasoning-capable SLMs. By introducing cognitive adaptation-adjusting the reasoning process structure rather than per-token computation-SD-E$^2$ offers a complementary path to efficiency gains in resource-constrained models.
- Abstract(参考訳): スモールランゲージモデル(SLM)は、厳密な計算予算の下で探索が高価であるため、複雑な推論に苦しむ。
本稿では,意味的多様性を最適化して探索を明示する強化学習フレームワークであるSemantic Diversity-Exploration-Exploitation(SD-E$^2$)を紹介する。
SD-E$^2$は、凍結文埋め込みモデルを用いて多様性の報酬を割り当て、キャプチャする。
一 意味的に異なる解法及び解法を網羅すること
(ii) 曲面の新規性ではなく、埋め込み空間における平均的な対相似性。
この多様性報酬は、トレーニングを安定させるzスコア正規化多目的目標における結果の正しさと解の効率との組み合わせである。
GSM8Kでは、SD-E$^2$はQwen2.5-3B-インストラクタと強いGRPOベースライン(GRPO-CFLとGRPO-CFEE)をそれぞれ+27.4、+5.2、+1.5パーセンテージで上回り、平均9.8のセマンティックな戦略を発見した。
我々はさらに、MedMCQAをベースモデルで49.64%、38.37%に改善し、より厳しいAIMEベンチマーク(1983-2025)で13.28%、ベースで6.74%に向上した。
これらの結果から,有意な意味的ノベルティはより計算効率の高い探索・探索信号をもたらすことが示唆された。
認知適応制御を導入することで、SD-E$^2$は資源制約モデルにおける効率向上のための相補的な経路を提供する。
関連論文リスト
- A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - DRA-GRPO: Exploring Diversity-Aware Reward Adjustment for R1-Zero-Like Training of Large Language Models [5.125711540219288]
本稿では,報酬計算に意味的多様性を明示的に組み込む手法である$textitDiversity-aware Reward Adjustment$ (DRA)を提案する。
DRAは、サブモジュール・ミューチュアル・インフォメーション(SMI)を使用して、冗長な補完を減らし、様々なものに対する報酬を増幅する。
最先端のパフォーマンスを平均58.2%の精度で達成し、微調整サンプルは7000点、訓練費は約55ドルだった。
論文 参考訳(メタデータ) (2025-05-14T02:02:32Z) - Adaptive Thinking via Mode Policy Optimization for Social Language Agents [75.3092060637826]
動的社会的相互作用における言語エージェントの適応的思考能力を改善するための枠組みを提案する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
論文 参考訳(メタデータ) (2025-05-04T15:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。