論文の概要: General learned delegation by clones
- arxiv url: http://arxiv.org/abs/2602.13262v1
- Date: Tue, 03 Feb 2026 15:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.595337
- Title: General learned delegation by clones
- Title(参考訳): クローンによる一般学習委任
- Authors: Darren Li, Meiqi Chen, Chenze Shao, Fandong Meng, Jie Zhou,
- Abstract要約: シリアル推論や非協調並列サンプリングは、固定された推論予算の下では計算非効率である。
本研究では,SELFCESTを提案する。SELFCESTは,同じクローンを異なる並列コンテキストで生成する機能を備えたベースモデルである。
- 参考スコア(独自算出の注目度): 55.144380092379976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier language models improve with additional test-time computation, but serial reasoning or uncoordinated parallel sampling can be compute-inefficient under fixed inference budgets. We propose SELFCEST, which equips a base model with the ability to spawn same-weight clones in separate parallel contexts by agentic reinforcement learning. Training is end-to-end under a global task reward with shared-parameter rollouts, yielding a learned controller that allocates both generation and context budget across branches. Across challenging math reasoning benchmarks and long-context multi-hop QA, SELFCEST improves the accuracy-cost Pareto frontier relative to monolithic baselines at matched inference budget, and exhibits out-of-distribution generalization in both domains.
- Abstract(参考訳): フロンティア言語モデルは、追加のテスト時間計算で改善されるが、シリアル推論や非コーディネート並列サンプリングは、固定された推論予算の下では計算非効率である。
SELFCESTは,エージェント強化学習により,同一クローンを個別に並列に生成する能力を備えたベースモデルを提案する。
トレーニングはグローバルなタスク報酬と共有パラメータのロールアウトによってエンドツーエンドで行われ、ブランチ間で生成とコンテキストの予算を割り当てる学習されたコントローラを提供する。
SELFCESTは、難解な数学推論ベンチマークと長文マルチホップQAの範囲で、一致した推論予算におけるモノリシックなベースラインに対する精度の高いパレートフロンティアを改善し、両方の領域でアウト・オブ・ディストリビューションの一般化を示す。
関連論文リスト
- CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs [31.371566320424552]
CoBA-RLは、モデルの進化能力に基づいて、ロールアウト予算を適応的に割り当てるように設計された強化学習アルゴリズムである。
我々のアプローチは、探索と搾取の間のトレードオフを効果的に編成し、一貫した一般化の改善を提供する。
論文 参考訳(メタデータ) (2026-02-03T03:14:36Z) - Towards regularized learning from functional data with covariate shift [3.072411352294816]
本稿では,ベクトル値回帰における教師なし領域適応のための一般化正規化フレームワークについて検討する。
仮説空間を制限することにより,関数的出力を扱える実用的な演算子学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-01-28T20:30:05Z) - Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文 参考訳(メタデータ) (2025-11-24T18:55:59Z) - Context Attribution with Multi-Armed Bandit Optimization [11.715006981206844]
本稿では,コンテキスト属性をCMAB(Multi-armed bandit)問題として定式化する新しいフレームワークを提案する。
我々は、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために、 Combinatorial Thompson Sampling (CTS) を採用している。
本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
論文 参考訳(メタデータ) (2025-06-24T19:47:27Z) - DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling [20.605487145370752]
推論時間スケーリングは、テスト時間計算の増大を通じて、大きな言語モデル(LLM)の性能向上に有効であることが証明されている。
しかし、実際的な応用は、外部検証への依存や、現実的な計算制約に対する最適化の欠如によってしばしば妨げられる。
我々はDynScalingを提案し、これらの制限を2つの主要なイノベーション、すなわち並列シーケンスサンプリング戦略と帯域幅に基づく動的予算配分フレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-06-19T05:40:54Z) - CC-LEARN: Cohort-based Consistency Learning [5.7716971260066]
大規模な言語モデルは一貫性のある堅牢な推論に苦しむ。
コホートに基づく一貫性学習(CC-Learn)を紹介する。
実験により、CC-Learnは事前訓練されたベースラインとSFTベースラインの精度と推論安定性を向上することが示された。
論文 参考訳(メタデータ) (2025-06-18T17:41:28Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。