論文の概要: DPO-F+: Aligning Code Repair Feedback with Developers' Preferences
- arxiv url: http://arxiv.org/abs/2511.01043v1
- Date: Sun, 02 Nov 2025 18:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.040327
- Title: DPO-F+: Aligning Code Repair Feedback with Developers' Preferences
- Title(参考訳): DPO-F+: 開発者の選好によるコード修正フィードバックの調整
- Authors: Zihan Fang, Yifan Zhang, Yueke Zhang, Kevin Leach, Yu Huang,
- Abstract要約: DPO-f+は、コードレビューフィードバックを開発者のニーズやプロファイルと整合させるフレームワークです。
経験的に、DPO-f+はベースラインと標準DPOの両方で、生成コード精度と全体的なフィードバックアライメントでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 13.333315604414922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly applied to software engineering tasks, especially code repair. However, developers often struggle to interpret model outputs, limiting effective human-AI teaming. Prior work largely optimizes repaired code while under-addressing the natural-language feedback that enables comprehension and iterative improvement. We present DPO-f+, a novel framework that aligns code-repair feedback with developer needs and profiles. It (1) formalizes developer-profiled, domain-specific metrics for feedback alignment; (2) automatically constructs pairwise preference datasets from code-repair tasks; (3) fine-tunes using Direct Preference Optimization (DPO) augmented with a lightweight margin signal; and (4) provides an automated feedback evaluation protocol. Empirically, DPO-f+ outperforms both the baseline and standard DPO on generated-code accuracy and overall feedback alignment. On novice programming tasks, DPO-f+ raises the top-1 pass rate by 5.71 percentage points (pp) over the baseline and by 3.30 pp over DPO. On the more challenging SWE-bench Lite benchmark, it increases the issue-resolution rate by 1.67 pp over DPO and by 4.67 pp over the baseline. It also achieves the largest improvement in feedback alignment, outperforming DPO and the baseline. By aligning feedback more closely with developer needs, DPO-f+ turns LLM-assisted repair from one-shot outputs into a collaborative sensemaking workflow, providing a practical approach to enhancing code comprehension and fostering more effective human-AI teaming in software engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学のタスク、特にコード修復にますます適用されている。
しかし、開発者はしばしばモデルアウトプットの解釈に苦労し、効果的なヒューマンAIチームを制限する。
それまでの作業は、理解と反復的な改善を可能にする自然言語フィードバックをアンダーアドレッシングしながら、リファクタリングされたコードを主に最適化する。
DPO-f+は、コードレビューフィードバックを開発者のニーズやプロファイルと整合させる新しいフレームワークである。
1) 開発者が注目する、フィードバックアライメントのためのドメイン固有のメトリクスを形式化し、(2) コードリファクタリングタスクからペア指向の選好データセットを自動的に構築し、(3) 直接選好最適化(DPO)を軽量なマージン信号に付加した微調整を行い、(4) 自動フィードバック評価プロトコルを提供する。
経験的に、DPO-f+はベースラインと標準DPOの両方で、生成コード精度と全体的なフィードバックアライメントでパフォーマンスが向上する。
初心者のプログラミングタスクでは、DPO-f+はベースラインで5.71ポイント(pp)、DPOで3.30ppポイント上昇する。
より難しいSWE-bench Liteベンチマークでは、DPOで1.67pp、ベースラインで4.67ppのイシューレゾリューションレートが向上する。
また、フィードバックアライメントの最大の改善、DPOとベースラインを上回ります。
DPO-f+は、開発者のニーズにより緊密にフィードバックを合わせることで、LLM支援の修復をワンショットアウトプットからコラボレーティブなセンスメイキングワークフローに変え、コードの理解を高め、ソフトウェアエンジニアリングにおけるより効果的なヒューマンAIチームを促進するための実践的なアプローチを提供する。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks [28.849481030601666]
本稿では,大規模言語モデルのフィードバック理解と性能を評価するベンチマークであるFeedbackEvalを紹介する。
我々は,GPT-4o,Claude-3.5,Gemini-1.5,GLM-4,Qwen2.5の5つの最先端LCMについて総合的研究を行った。
その結果, 構造的フィードバック, 特にテストフィードバックの形では, 修復成功率が最も高く, 非構造的フィードバックは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2025-04-09T14:43:08Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。
本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。
本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文 参考訳(メタデータ) (2025-01-22T14:15:46Z) - Aligning CodeLLMs with Direct Preference Optimization [44.34483822102872]
この研究はまず、一般的に使われているPPOアルゴリズムがCodeLLMのアライメントに最適であることを示す。
好みデータペアのみに基づいて、DPOはモデルランクデータを自動でレンダリングすることができ、きめ細かい報酬パターンを生み出す。
本研究では,MBPPやHumanEvalなどのベンチマークにおいて,既存のCodeLLMの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T09:36:13Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [35.638723885233475]
本稿では,トークンワイド報酬関数を選好データから学習し,この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うアルゴリズムを提案する。
実験により、texttRTOはPPOや他の直接選好学習アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。