論文の概要: SwiftSolve: A Self-Iterative, Complexity-Aware Multi-Agent Framework for Competitive Programming
- arxiv url: http://arxiv.org/abs/2510.22626v1
- Date: Sun, 26 Oct 2025 11:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.302058
- Title: SwiftSolve: A Self-Iterative, Complexity-Aware Multi-Agent Framework for Competitive Programming
- Title(参考訳): SwiftSolve: 競合プログラミングのための自己決定的で複雑なマルチエージェントフレームワーク
- Authors: Adhyayan Veer Singh, Aaron Shen, Brian Law, Ahmed Ismail, Jonas Rohweder, Sean O'Brien, Kevin Zhu,
- Abstract要約: 我々は、複雑性を意識した競合プログラミングのためのマルチエージェントシステムSwiftを提案する。
プロファイリングと複雑誘導型リプランニングは精度を保ちながら非効率性を低下させることを示す。
- 参考スコア(独自算出の注目度): 4.611794255231338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correctness alone is insufficient: LLM-generated programs frequently satisfy unit tests while violating contest time or memory budgets. We present SwiftSolve, a complexity-aware multi-agent system for competitive programming that couples algorithmic planning with empirical profiling and complexity-guided repair. We frame competitive programming as a software environment where specialized agents act as programmers, each assuming roles such as planning, coding, profiling, and complexity analysis. A Planner proposes an algorithmic sketch; a deterministic Static Pruner filters high-risk plans; a Coder emits ISO C++17; a Profiler compiles and executes candidates on a fixed input-size schedule to record wall time and peak memory; and a Complexity Analyst fits log-log growth (s, R2) with an LLM fallback to assign a complexity class and dispatch targeted patches to either the Planner or Coder. Agents communicate via typed, versioned JSON; a controller enforces iteration caps and diminishing returns stopping. Evaluated on 26 problems (16 BigO, 10 Codeforces Div. 2) in a POSIX sandbox (2 s / 256-512 MB), SwiftSolve attains pass@1 = 61.54% (16/26) on the first attempt and Solved@<=3 = 80.77% with marginal latency change (mean 11.96 s to 12.66 s per attempt). Aggregate run-level success is 73.08% at 12.40 s mean. Failures are predominantly resource-bound, indicating inefficiency rather than logic errors. Against Claude Opus 4, SwiftSolve improves run-level success (73.1% vs 52.6%) at approximately 2x runtime overhead (12.4 s vs 6.8 s). Beyond correctness (pass@k), we report efficiency metrics (eff@k for runtime and memory, incidence of TLE or MLE, and complexity fit accuracy on BigO), demonstrating that profiling and complexity-guided replanning reduce inefficiency while preserving accuracy.
- Abstract(参考訳): LLM生成プログラムは、コンテスト時間やメモリ予算に違反しながら、しばしば単体テストを満たす。
SwiftSolveは,アルゴリズム計画と経験的プロファイリングと複雑誘導型修復を併用した,競合プログラミングのための複雑を意識したマルチエージェントシステムである。
特殊なエージェントがプログラマとして働き、それぞれが計画、コーディング、プロファイリング、複雑性分析といった役割を担っているソフトウェア環境として、競争力のあるプログラミングの枠組みを定めています。
Plannerはアルゴリズムによるスケッチを提案し、決定論的静的プルーナーはハイリスクプランをフィルタリングし、CoderはISO C++17を出力し、プロファイラは固定された入力サイズスケジュールで候補をコンパイルしてウォールタイムとピークメモリを記録する。
エージェントは、タイプされたバージョン付きJSONを介して通信する。
POSIXサンドボックス (2 s / 256-512 MB) の26の問題 (BigO, 10 Codeforces Div.2) に基づいて評価されたSwiftSolveは、最初の試行でpass@1 = 61.54% (16/26) を獲得し、Solved@<=3 = 80.77%に限界レイテンシの変更(試行毎に11.96 sから12.66 s)がある。
Aggregate run-level success is 73.08% at 12.40 s mean。
失敗は主としてリソースバウンドであり、ロジックエラーよりも非効率であることを示している。
Claude Opus 4に対して、SwiftSolveは実行レベルの成功(73.1%対52.6%)を約2倍のランタイムオーバーヘッド(12.4 s対6.8 s)で改善している。
正確性(pass@k)の他に、実行時とメモリのeff@k、TLEやMLEの発生率、BigOの複雑性の精度を報告し、プロファイリングと複雑性誘導リプランニングが正確性を保ちながら非効率性を低下させることを示した。
関連論文リスト
- Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ
我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。
代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文 参考訳(メタデータ) (2025-03-10T16:56:51Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement [47.89758553708932]
textbfThinkCoderは、徹底的な探索と最適な精錬を組み合わせたフレームワークです。
探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。
テスト時間計算のオーバーヘッドを最小化するために、Reinforced Self-Training (ReST) を用いた優先駆動最適化を導入する。
論文 参考訳(メタデータ) (2024-12-30T07:02:15Z) - Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization [0.0]
導入プログラミング課題(IPAs)のための自動プログラム修復(APR)は、多数の学生の参加によって動機付けられている。
本稿では,FMに基づく障害局所化とLarge Language Models(LLMs)の長所を組み合わせた新しいアプローチを提案する。
提案手法では,MaxSATに基づく障害位置定位法を用いて,プログラムのバグ部分を特定し,これらのバグ文を欠いたプログラムスケッチをLLMに提示する。
論文 参考訳(メタデータ) (2024-12-19T12:08:44Z) - When is Tree Search Useful for LLM Planning? It Depends on the Discriminator [15.75807429396126]
大規模言語モデル(LLM)は、ジェネレータ、識別器、計画方法という3つのコンポーネントを持つ言語エージェントフレームワークの下で、多段階の問題を解決する。
本稿では,先進的な計画手法を用いて,識別精度がエージェント全体の性能に与える影響を包括的に分析する。
論文 参考訳(メタデータ) (2024-02-16T18:45:58Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。