論文の概要: Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.12434v1
- Date: Mon, 15 Sep 2025 20:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.755795
- Title: Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization
- Title(参考訳): エントロピー強化マルチターン優先最適化による符号化エージェントの構築
- Authors: Jiahao Yu, Zelei Cheng, Xian Wu, Xinyu Xing,
- Abstract要約: sysはエントロピー強化フレームワークで、既存の選好最適化アルゴリズムをマルチターンツールアシスト設定に適応させる。
私たちは、さまざまな家族やサイズからさまざまなモデルのスイートを微調整することで、sysを検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
- 参考スコア(独自算出の注目度): 13.271737599933147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software engineering presents complex, multi-step challenges for Large Language Models (LLMs), requiring reasoning over large codebases and coordinated tool use. The difficulty of these tasks is exemplified by benchmarks like SWE-bench, where current LLMs still struggle to resolve real-world issues. A promising approach to enhance performance is test-time scaling (TTS), but its gains are heavily dependent on the diversity of model outputs. While standard alignment methods such as Direct Preference Optimization (DPO) and Kahneman-Tversky Optimization (KTO) are effective at aligning model outputs with human preferences, this process can come at the cost of reduced diversity, limiting the effectiveness of TTS. Additionally, existing preference optimization algorithms are typically designed for single-turn tasks and do not fully address the complexities of multi-turn reasoning and tool integration required for interactive coding agents. To bridge this gap, we introduce \sys, an entropy-enhanced framework that adapts existing preference optimization algorithms to the multi-turn, tool-assisted setting. \sys augments the preference objective to explicitly preserve policy entropy and generalizes learning to optimize over multi-turn interactions rather than single-turn responses. We validate \sys by fine-tuning a diverse suite of models from different families and sizes (up to 106B parameters). To maximize performance gains from TTS, we further propose a hybrid best-trajectory selection scheme combining a learned verifier model with model free approaches. On the \swebench leaderboard, our approach establishes new state-of-the-art results among open-weight models. A 30B parameter model trained with \sys ranks 1st on \lite and 4th on \verified on the open-weight leaderboard, surpassed only by models with over 10x more parameters(\eg$>$350B).
- Abstract(参考訳): ソフトウェアエンジニアリングは、大規模言語モデル(LLM)に複雑なマルチステップの課題を提示し、大規模なコードベースと協調ツールの使用を推論する必要がある。
これらのタスクの難しさは、SWE-benchのようなベンチマークによって実証されている。
性能を向上させるための有望なアプローチはテスト時間スケーリング(TTS)であるが、その利得はモデル出力の多様性に大きく依存している。
DPO(Direct Preference Optimization)やKTO(Kahneman-Tversky Optimization)のような標準アライメント手法は、モデル出力と人間の嗜好の整合に有効であるが、このプロセスは多様性を低減し、TSの有効性を制限することができる。
さらに、既存の選好最適化アルゴリズムは、典型的にはシングルターンタスク用に設計されており、多ターン推論の複雑さと対話型コーディングエージェントに必要なツール統合を完全には解決していない。
このギャップを埋めるために,既存の選好最適化アルゴリズムを多ターンツール支援設定に適応させるエントロピー強化フレームワークであるShasysを導入する。
\sysは、ポリシーのエントロピーを明示的に保護し、シングルターン応答よりもマルチターンインタラクションを最適化する学習を一般化する。
異なるファミリーとサイズ(最大106Bパラメータ)の多様なモデルの集合を微調整することで、Shasysを検証する。
TTSの性能向上を最大化するために,学習された検証器モデルとモデルフリーアプローチを組み合わせたハイブリッドベストトラジェクトリ選択方式を提案する。
Swebenchのリーダーボード上で、我々のアプローチはオープンウェイトモデルの中で新しい最先端の結果を確立します。
\sysでトレーニングされた30Bパラメータモデルは、オープンウェイトなリーダーボード上で1位と4位にランクされ、10倍以上のパラメータを持つモデル(\eg$>$350B)でしか上がらない。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models [18.249363312256722]
AMoPOは、選好次元間の動的バランスを実現する新しいフレームワークである。
本稿では,次元認識尺度を暗黙の報酬として用いるために,多目的最適化パラダイムを導入する。
実証的な結果は、AMoPOが最先端のベースラインを28.5%上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-08T14:31:06Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Model Fusion through Bayesian Optimization in Language Model Fine-Tuning [16.86812534268461]
下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。
本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。
各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2024-11-11T04:36:58Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。