論文の概要: Feedback Over Form: Why Execution Feedback Matters More Than Pipeline Topology in 1-3B Code Generation
- arxiv url: http://arxiv.org/abs/2604.21950v1
- Date: Thu, 23 Apr 2026 00:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.210423
- Title: Feedback Over Form: Why Execution Feedback Matters More Than Pipeline Topology in 1-3B Code Generation
- Title(参考訳): フィードバックオーバーフォーム: 1-3Bコード生成における実行フィードバックがパイプライントポロジよりも重要である理由
- Authors: Charles Junichi McAndrews,
- Abstract要約: 小型言語モデル(1-3B)は、ローカルで実行するには実用的だが、個別により難しいコード生成タスクに制限される。
我々は,1-3Bモデルから構築されたコード生成パイプラインと実行フィードバックについて検討し,NEATにインスパイアされた進化的探索を用いて,より複雑なパイプライン構造が役立つかどうかを検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (1-3B) are practical to run locally, but individually limited on harder code generation tasks. We ask whether composing them into pipelines can recover some of that lost capability. We study code generation pipelines built from 1-3B models with execution feedback, and use a NEAT-inspired evolutionary search to test whether more complex pipeline structure helps beyond a simple refinement loop. We evaluate on HumanEval (164 problems) and sanitized MBPP (427 problems), all with local inference on a single laptop. Self-refinement with execution feedback improves code generation by more than 4 standard deviations on both benchmarks. The gains are narrow in mechanism: refinement fixes many runtime errors (especially NameError and SyntaxError), but rarely fixes logic errors such as AssertionError. Within our tested general-purpose model pool, generator identity mattered less than refiner capability: a 1.5B generator paired with a 3B refiner matched a 3B model doing both roles. Early stopping is essential; without it, every iteration is net-negative. The code-specialized models outperform every general-purpose pipeline configuration, suggesting model specialization matters more than pipeline architecture. Preliminary text-only pipeline experiments without execution feedback did not show gains at this scale. In our constrained search space, evolutionary search mostly rediscovered the same simple generate-execute-refine loop we found manually, with no clearly significant gain from added topology. Single-evaluation fitness inflates results by 5-7 percent, selecting lucky genomes over good ones. On these benchmarks at 1-3B scale, execution feedback mattered more than added pipeline complexity in determining whether composition helped.
- Abstract(参考訳): 小型言語モデル(1-3B)は、ローカルで実行するには実用的だが、個別により難しいコード生成タスクに制限される。
パイプラインに組み込むことで、失った機能の一部を回復できるかどうかを問う。
我々は,1-3Bモデルから構築されたコード生成パイプラインを実行フィードバックを用いて検討し,NEATにインスパイアされた進化的探索を用いて,より複雑なパイプライン構造が単純な改善ループを超えて役立つかどうかを検証した。
我々は,HumanEval (164 問題) と MBPP (427 問題) を1台のラップトップ上でのローカル推論で評価した。
実行フィードバックによる自己リファインメントは、両方のベンチマークで4つ以上の標準偏差によってコード生成を改善する。
改善は多くのランタイムエラー(特にNameErrorとSyntaxError)を修正するが、AssertionErrorのようなロジックエラーを修正することは滅多にない。
1.5Bジェネレータと3B精錬器を組み合わせた1.5Bジェネレータは、両方の役割をこなす3Bモデルと一致した。
早期停止は必須であり、それなしでは、すべてのイテレーションはネット陰性である。
コード特化モデルはすべての汎用パイプライン構成より優れており、モデル特化はパイプラインアーキテクチャよりも重要であることを示唆している。
実行フィードバックのない予備的なテキストのみのパイプライン実験では、この規模では利益が得られなかった。
制約付き検索空間では、進化的検索は手作業で見つけたのと同じ単純な生成-実行-再定義ループを再発見し、追加したトポロジから顕著な利益は得られなかった。
単一評価の適合度は、良いゲノムよりも幸運なゲノムを選択することで、その結果を57%膨らませる。
これらのベンチマークの1-3Bスケールでは、コンポジションが役に立つかどうかを判断する上で、実行時のフィードバックはパイプラインの複雑さ以上の問題だった。
関連論文リスト
- PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文 参考訳(メタデータ) (2026-04-20T14:29:08Z) - OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis [63.8655724265611]
深層研究エージェントの訓練には、探索、証拠収集、多段階推論をインターリーブする長い水平軌道が必要である。
既存のデータ収集パイプラインは、一般的にプロプライエタリなWeb APIに依存しており、大規模な軌道合成をコストが高く、不安定で、再現が難しい。
再生可能なパイプラインであるOpenResearcherは,複数ターン軌道合成から1回のコーパスブートストラップを分離する。
論文 参考訳(メタデータ) (2026-03-17T20:10:12Z) - BAPPA: Benchmarking Agents, Plans, and Pipelines for Automated Text-to-SQL Generation [3.2476501707160543]
既存の大規模言語モデル(LLM)は、大きなスキーマサイズと複雑な推論のために、自然な命令からsqlを生成するのに苦労する。
本研究では,3つのマルチエージェントLPMパイプラインを探索し,小規模から大規模のオープンソースモデルにまたがる系統的なパフォーマンスベンチマークを行う。
Bird-Bench Mini-Dev セットの実験では、マルチエージェントの議論は小さなモデルの性能を向上させることができ、Qwen2.5-7b-Instruct の実行精度は最大10.6%向上した。
論文 参考訳(メタデータ) (2025-11-06T08:00:15Z) - Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models [59.7059443712562]
AdaPtisは、適応パイプライン並列性をサポートする大規模言語モデル(LLM)のトレーニングシステムである。
大規模な実験により、AdaPtisはMegatron-LM I-1F1Bよりも平均1.42倍(最大2.14倍)のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-09-28T08:05:13Z) - SpecPipe: Accelerating Pipeline Parallelism-based LLM Inference with Speculative Decoding [33.55718885446209]
パイプラインに投機トークンをステップバイステップで埋めるSpecPipeを紹介します。
ハードウェア利用の最大化によって、SpecPipeはパイプライン毎に1つのトークンを理想的にデコードする。
SpecPipe-DB はシングルリクエストとマルチリクエストの推論のために SpecPipe-DB を用いて動的ワークロードで実装する。
論文 参考訳(メタデータ) (2025-04-05T08:31:10Z) - Practical Pipeline-Aware Regression Test Optimization for Continuous Integration [9.079940595000087]
継続的インテグレーション(CI)は、一貫したコード品質を保証するために一般的に適用されます。
開発者は一般的に、複数のパイプラインにまたがってテスト実行を分割し、サブミット前の段階で小さくて速いテストを実行し、ポストサブミット後のパイプラインで長時間実行し、不安定なテストを実行する。
言語に依存しない特徴に基づいて訓練された強化学習モデルを用いて,軽量かつパイプライン対応の回帰テスト最適化手法を開発した。
論文 参考訳(メタデータ) (2025-01-20T15:39:16Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model [10.83607599315401]
本稿では,サロゲートモデル(AVATAR)を用いたMLパイプラインの有効性評価手法を提案する。
実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。
論文 参考訳(メタデータ) (2020-01-30T02:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。