論文の概要: Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution
- arxiv url: http://arxiv.org/abs/2604.07725v2
- Date: Fri, 10 Apr 2026 17:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.756401
- Title: Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution
- Title(参考訳): Squeeze Evolve: 検証自由進化のための統一マルチモデルオーケストレーション
- Authors: Monishwaran Maheswaran, Leon Lakhani, Zhongzhu Zhou, Shijia Yang, Junxiong Wang, Coleman Hooper, Yuezhou Hu, Rishabh Tiwari, Jue Wang, Harman Singh, Qingyang Wu, Yuqing Jian, Ce Zhang, Kurt Keutzer, Tri Dao, Xiaoxia Wu, Ben Athiwaratkun, James Zou, Chenfeng Xu,
- Abstract要約: 検証不要な進化推論のための統合型マルチモデルオーケストレーションフレームワークであるSqueeze Evolveを紹介する。
われわれのアプローチは単純な原則で導かれており、最良効能を有するモデル能力を割り当てる。
- 参考スコア(独自算出の注目度): 81.46210789228296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that verifier-free evolution is bottlenecked by both diversity and efficiency: without external correction, repeated evolution accelerates collapse toward narrow modes, while the uniform use of a high-cost model wastes compute and quickly becomes economically impractical. We introduce Squeeze Evolve, a unified multi-model orchestration framework for verifier-free evolutionary inference. Our approach is guided by a simple principle: allocate model capability where it has the highest marginal utility. Stronger models are reserved for high-impact stages, while cheaper models handle the other stages at much lower costs. This principle addresses diversity and cost-efficiency jointly while remaining lightweight. Squeeze Evolve naturally supports open-source, closed-source, and mixed-model deployments. Across AIME 2025, HMMT 2025, LiveCodeBench V6, GPQA-Diamond, ARC-AGI-V2, and multimodal vision benchmarks, such as MMMU-Pro and BabyVision, Squeeze Evolve consistently improves the cost-capability frontier over single-model evolution and achieves new state-of-the-art results on several tasks. Empirically, Squeeze Evolve reduces API cost by up to $\sim$3$\times$ and increases fixed-budget serving throughput by up to $\sim$10$\times$. Moreover, on discovery tasks, Squeeze Evolve is the first verifier-free evolutionary method to match, and in some cases exceed, the performance of verifier-based evolutionary methods.
- Abstract(参考訳): 検証不要な進化は, 外部修正がなければ, 繰り返しの進化は狭いモードへの崩壊を加速し, コストのかかるモデル廃棄物の均一利用は計算し, 経済的に非現実的なものとなる。
検証不要な進化推論のための統合型マルチモデルオーケストレーションフレームワークであるSqueeze Evolveを紹介する。
われわれのアプローチは単純な原理で導かれており、最良効能を有するモデル能力を割り当てる。
より強力なモデルは高いインパクトのステージに予約され、より安価なモデルはより低コストで他のステージを扱う。
この原則は、軽量を維持しながら、多様性と費用対効果を共同で解決する。
Squeeze Evolveは、自然にオープンソース、クローズドソース、ミックスモデルデプロイメントをサポートしている。
AIME 2025, HMMT 2025, LiveCodeBench V6, GPQA-Diamond, ARC-AGI-V2, MMMU-ProやBabyVision, Squeeze Evolveといったマルチモーダルビジョンベンチマークは、単一モデル進化に対するコスト-キャパビリティのフロンティアを一貫して改善し、いくつかのタスクにおいて新たな最先端結果を達成する。
経験的に、Squeeze EvolveはAPIコストを最大$\sim$3$\times$に削減し、固定予算サービススループットを最大$\sim$10$\times$に向上させる。
さらに、発見タスクにおいて、Squeeze Evolveは最初の検証対象のない進化法であり、場合によっては検証対象に基づく進化法の性能を上回っている。
関連論文リスト
- EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - LoongFlow: Directed Evolutionary Search via a Cognitive Plan-Execute-Summarize Paradigm [8.050281821865978]
LoongFlowは、最先端のソリューション品質を実現し、計算コストを大幅に削減するセルフ進化エージェントフレームワークである。
ブレンド」突然変異演算子とは異なり、LoongFlowはLarge Language Modelsを認知的なPlan-Execute-Summarize(PES)パラダイムに統合している。
長期的アーキテクチャコヒーレンスを維持するため、我々はハイブリッド進化記憶システムを組み込んだ。
論文 参考訳(メタデータ) (2025-12-30T08:39:28Z) - ThetaEvolve: Test-time Learning on Open Problems [110.5756538358217]
In-context LearningとReinforcement Learning(RL)の両方をテスト時に効率的にスケールするために、AlphaEvolveを単純化し拡張するオープンソースのフレームワークであるThetaEvolveを紹介します。
テスト時にRLを使用するThetaEvolveは、推論のみのベースラインよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-11-28T18:58:14Z) - EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards [52.42920996842378]
本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
論文 参考訳(メタデータ) (2025-11-20T18:59:54Z) - Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation [74.75716642635484]
大規模言語モデル(LLM)は、検証可能な報酬(RLVR)からの強化学習でますます訓練されている
本稿では,ラベルのないフレームワークEVOL-RLを提案する。
EVOL-RLは、多数派のみのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-18T17:50:04Z) - MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs [14.791853860278914]
MERGE$3$は、単一のGPU上での進化的マージを可能にする効率的なフレームワークである。
MerGE$3$は、評価のためのデータセットの削減、アイテム応答理論(IRT)を用いたモデル能力の推定、IRTベースのパフォーマンス推定器による最適なマージの進化によってこれを達成します。
提案手法は,言語間の知識を変換し,計算オーバーヘッドを大幅に低減した,最先端の多言語・多言語統合を実現する。
論文 参考訳(メタデータ) (2025-02-09T14:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。