論文の概要: Human-Aligned Enhancement of Programming Answers with LLMs Guided by User Feedback
- arxiv url: http://arxiv.org/abs/2601.17604v1
- Date: Sat, 24 Jan 2026 21:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.016928
- Title: Human-Aligned Enhancement of Programming Answers with LLMs Guided by User Feedback
- Title(参考訳): ユーザフィードバックによるLCMによるヒューマンアライズされたプログラミングアンサーの強化
- Authors: Suborno Deb Bappon, Saikat Mondal, Chanchal K. Roy, Kevin Schneider,
- Abstract要約: 大きな言語モデル(LLM)は、コード生成、最適化、ドキュメントなどのタスクでソフトウェア開発者をサポートするために広く使われている。
しかし、既存のプログラミングの回答を人間的な方法で改善する能力は、まだ未熟である。
本研究は,LLMがコメントに基づくフィードバックを解釈し,組み込むことで,プログラミングの回答を高めることができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 3.1358838725251683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used to support software developers in tasks such as code generation, optimization, and documentation. However, their ability to improve existing programming answers in a human-like manner remains underexplored. On technical question-and-answer platforms such as Stack Overflow (SO), contributors often revise answers based on user comments that identify errors, inefficiencies, or missing explanations. Yet roughly one-third of this feedback is never addressed due to limited time, expertise, or visibility, leaving many answers incomplete or outdated. This study investigates whether LLMs can enhance programming answers by interpreting and incorporating comment-based feedback. We make four main contributions. First, we introduce ReSOlve, a benchmark consisting of 790 SO answers with associated comment threads, annotated for improvement-related and general feedback. Second, we evaluate four state-of-the-art LLMs on their ability to identify actionable concerns, finding that DeepSeek achieves the best balance between precision and recall. Third, we present AUTOCOMBAT, an LLM-powered tool that improves programming answers by jointly leveraging user comments and question context. Compared to human revised references, AUTOCOMBAT produces near-human quality improvements while preserving the original intent and significantly outperforming the baseline. Finally, a user study with 58 practitioners shows strong practical value, with 84.5 percent indicating they would adopt or recommend the tool. Overall, AUTOCOMBAT demonstrates the potential of scalable, feedback-driven answer refinement to improve the reliability and trustworthiness of technical knowledge platforms.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード生成、最適化、ドキュメントなどのタスクでソフトウェア開発者をサポートするために広く使われている。
しかし、既存のプログラミングの解答を人間的な方法で改善する能力は、いまだ解明されていない。
Stack Overflow (SO)のような技術的な疑問と答えのプラットフォームでは、コントリビュータは、エラーや非効率性、説明の欠如を識別するユーザコメントに基づいて、回答を更新することが多い。
しかし、このフィードバックのおよそ3分の1は、限られた時間、専門知識、あるいは可視性のために対処されない。
本研究は,LLMがコメントに基づくフィードバックを解釈し,組み込むことで,プログラミングの回答を高めることができるかどうかを考察する。
主な貢献は4つある。
まず 790 SO 回答と関連するコメントスレッドからなるベンチマークである ReSOlve を紹介する。
第2に,DeepSeekが精度とリコールの最良のバランスを達成できることを示すために,動作可能な関心事を特定する能力について,最先端の4つのLCMを評価した。
第3に,ユーザコメントと質問コンテキストを併用して,プログラミングの回答を改善するLLMツールであるAUTOCOMBATを提案する。
AUTOCOMBATは、人間の改訂参照と比較して、本来の意図を保ちながら、ほぼ人間に近い品質改善を実現し、ベースラインを大幅に上回っている。
最後に、58人の実践者によるユーザスタディでは、このツールを採用するか推奨するかを示す84.5パーセントの実践的価値が示されています。
全体として、AUTOCOMBATは、技術知識プラットフォームの信頼性と信頼性を向上させるために、スケーラブルでフィードバック駆動の回答改善の可能性を実証している。
関連論文リスト
- Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks [28.849481030601666]
本稿では,大規模言語モデルのフィードバック理解と性能を評価するベンチマークであるFeedbackEvalを紹介する。
我々は,GPT-4o,Claude-3.5,Gemini-1.5,GLM-4,Qwen2.5の5つの最先端LCMについて総合的研究を行った。
その結果, 構造的フィードバック, 特にテストフィードバックの形では, 修復成功率が最も高く, 非構造的フィードバックは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2025-04-09T14:43:08Z) - ACE-RLHF: Automated Code Evaluation and Socratic Feedback Generation Tool using Large Language Models and Reinforcement Learning with Human Feedback [4.503215272392276]
コードフィードバック生成のための大規模言語モデル(LLM)が不可欠である。
LLMはコンパイラが生成したエラーメッセージよりも理解しやすいフィードバックを生成する。
Reinforcement Learning with Human Feedback (RLHF)は、初心者の生徒がスクラッチから対話的にプログラミングをリーン化するのに役立つ。
論文 参考訳(メタデータ) (2025-04-07T01:11:22Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。