論文の概要: Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering
- arxiv url: http://arxiv.org/abs/2505.23604v1
- Date: Thu, 29 May 2025 16:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.97754
- Title: Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering
- Title(参考訳): Satori-SWE: サンプル効率の良いソフトウェアエンジニアリングのための進化的テストタイムスケーリング
- Authors: Guangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan,
- Abstract要約: 言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
- 参考スコア(独自算出の注目度): 51.7496756448709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) perform well on standardized coding benchmarks but struggle with real-world software engineering tasks such as resolving GitHub issues in SWE-Bench, especially when model parameters are less than 100B. While smaller models are preferable in practice due to their lower computational cost, improving their performance remains challenging. Existing approaches primarily rely on supervised fine-tuning (SFT) with high-quality data, which is expensive to curate at scale. An alternative is test-time scaling: generating multiple outputs, scoring them using a verifier, and selecting the best one. Although effective, this strategy often requires excessive sampling and costly scoring, limiting its practical application. We propose Evolutionary Test-Time Scaling (EvoScale), a sample-efficient method that treats generation as an evolutionary process. By iteratively refining outputs via selection and mutation, EvoScale shifts the output distribution toward higher-scoring regions, reducing the number of samples needed to find correct solutions. To reduce the overhead from repeatedly sampling and selection, we train the model to self-evolve using reinforcement learning (RL). Rather than relying on external verifiers at inference time, the model learns to self-improve the scores of its own generations across iterations. Evaluated on SWE-Bench-Verified, EvoScale enables our 32B model, Satori-SWE-32B, to match or exceed the performance of models with over 100B parameters while using a few samples. Code, data, and models will be fully open-sourced.
- Abstract(参考訳): 言語モデル(LM)は、標準化されたコーディングベンチマークでよく機能するが、SWE-BenchのGitHub問題、特にモデルパラメータが100B未満の場合には、実際のソフトウェアエンジニアリングタスクに苦労する。
より小さなモデルは計算コストが低いために実際に好まれるが、性能の改善は依然として困難である。
既存のアプローチは主に高品質なデータを持つ教師付き微調整(SFT)に依存している。
もうひとつの方法は、複数のアウトプットを生成し、検証子を使用してスコア付けし、最適なものを選択する、テスト時のスケーリングだ。
この戦略は効果的ではあるが、しばしば過剰なサンプリングとコストのかかる採点を必要とし、実用的応用を制限している。
進化的テスト時間スケーリング(EvoScale, Evolutionary Test-Time Scaling, EvoScale)は, 生成を進化過程として扱うサンプル効率の高い手法である。
選択と突然変異によって出力を反復的に精製することで、EvoScaleは出力分布を高いスコア領域にシフトし、正しい解を見つけるのに必要なサンプルの数を削減した。
繰り返しサンプリングと選択のオーバーヘッドを軽減するため,強化学習(RL)を用いて自己進化型モデルを訓練する。
モデルは、推論時に外部検証に頼らず、イテレーションを通して自身の世代のスコアを自己改善することを学ぶ。
SWE-Bench-Verifiedに基づき、EvoScaleは32BモデルであるSatori-SWE-32Bを、サンプル数を用いて100B以上のパラメータを持つモデルの性能に適合または超えることを可能にする。
コード、データ、モデルは、完全にオープンソースになる。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - S$^{2}$-DMs:Skip-Step Diffusion Models [10.269647566864247]
拡散モデルは強力な生成ツールとして出現し、サンプル品質のGANと競合し、自己回帰モデルの可能性スコアを反映している。
これらのモデルのサブセットはDDIMによって例示され、固有の非対称性を示す:それらは$T$ステップで訓練されるが、生成時に$T$のサブセットからのみサンプルされる。
この選択的なサンプリング手法は、スピードに最適化されているが、無サンプルのステップから必然的に重要な情報を見逃し、サンプルの品質が損なわれる可能性がある。
革新的な$Lを用いた新しいトレーニング手法であるS$2$-DMを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:08:32Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Synergistic Self-supervised and Quantization Learning [24.382347077407303]
本稿では, 自己教師付き自己教師付きモデルを事前学習するための, 相乗的自己教師型自己教師型学習(S)法を提案する。
一度だけトレーニングすることで、Sは異なるビット幅で様々な下流タスクに同時に恩恵を与えることができる。
論文 参考訳(メタデータ) (2022-07-12T09:55:10Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。