論文の概要: PaT: Planning-after-Trial for Efficient Test-Time Code Generation
- arxiv url: http://arxiv.org/abs/2605.07248v1
- Date: Fri, 08 May 2026 05:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.809758
- Title: PaT: Planning-after-Trial for Efficient Test-Time Code Generation
- Title(参考訳): PaT: 効率的なテスト時間コード生成のためのプランニング・アフター・トリアル
- Authors: Youngsik Yoon, Sungjae Lee, Seockbean Song, Siwei Wang, Wei Chen, Jungseul Ok,
- Abstract要約: Planning-after-Trial (PaT) は、検証失敗時にのみプランナーを呼び出すコード生成のための適応的なポリシーである。
検証失敗時にのみプランナーを起動するコード生成のための適応ポリシーであるPaTを提案する。
- 参考スコア(独自算出の注目度): 25.264318601226265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond training-time optimization, scaling test-time computation has emerged as a key paradigm to extend the reasoning capabilities of Large Language Models (LLMs). However, most existing methods adopt a rigid Planning-before-Trial (PbT) policy, which inefficiently allocates test-time compute by incurring planning overhead even on directly solvable problems. We propose Planning-after-Trial (PaT), an adaptive policy for code generation that invokes a planner only upon verification failure. This adaptive policy naturally enables a heterogeneous model configuration: a cost-efficient model handles generation attempts, while a powerful model is reserved for targeted planning interventions. Empirically, across multiple benchmarks and model families, our approach significantly advances the cost-performance Pareto frontier. Notably, our heterogeneous configuration achieves performance comparable to a large homogeneous model while reducing inference cost by approximately 69\%.
- Abstract(参考訳): トレーニング時最適化以外にも、LLM(Large Language Models)の推論能力を拡張するための重要なパラダイムとして、テスト時計算のスケーリングが登場した。
しかし、既存のほとんどの手法では、直接解決可能な問題であっても計画オーバーヘッドを発生させることで、テスト時間計算を非効率に割り当てる、厳格なプランニング-前-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
検証失敗時にのみプランナーを起動するコード生成のための適応的ポリシーであるプランニング・アフター・トリアル(PaT)を提案する。
コスト効率のよいモデルが生成試行を処理し、強力なモデルは目標とする計画介入のために予約される。
実証的には、複数のベンチマークやモデルファミリに対して、当社のアプローチはコストパフォーマンスのParetoフロンティアを大幅に向上させています。
特に、我々の異種構成は、推論コストを約69\%削減しつつ、大きな同種モデルに匹敵する性能を達成する。
関連論文リスト
- Relating Reinforcement Learning to Dynamic Programming-Based Planning [1.814099487268094]
本稿では、最適計画と強化学習(RL)のギャップを埋める。
RLのデランドマイズされたバージョンは、値とDijkstraのアルゴリズムのパフォーマンス比較を得るために開発、分析、実装されている。
論文 参考訳(メタデータ) (2026-03-08T23:28:23Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。
EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文 参考訳(メタデータ) (2025-09-15T20:36:19Z) - Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。
これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。
本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文 参考訳(メタデータ) (2024-08-08T16:29:09Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Policy Optimization with Linear Temporal Logic Constraints [37.27882290236194]
本稿では,線形時間論理制約を用いた政策最適化の問題点について考察する。
我々は,タスク満足度とコスト最適性の両方を保証するために,サンプル複雑性分析を楽しむモデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2022-06-20T02:58:02Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。