論文の概要: Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by Large Language Models
- arxiv url: http://arxiv.org/abs/2503.15129v1
- Date: Wed, 19 Mar 2025 11:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:01.369219
- Title: Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by Large Language Models
- Title(参考訳): 大規模言語モデルによるコード生成における強化学習のためのクラウドソース型ヒューマンフィードバックの調整
- Authors: Man Fai Wong, Chee Wei Tan,
- Abstract要約: 我々は、Github CopilotやAmazon CodeWhispererといったAIツールを通じて、AI支援プログラミングと大規模言語モデル(LLM)がソフトウェア開発者の能力をどのように改善するかを研究する。
ベイジアン最適化フレームワークは,フィードバック収集負荷を分散することにより,コード生成におけるAIアライメントをサポートすることを示す。
- 参考スコア(独自算出の注目度): 2.6641834518599308
- License:
- Abstract: This paper studies how AI-assisted programming and large language models (LLM) improve software developers' ability via AI tools (LLM agents) like Github Copilot and Amazon CodeWhisperer, while integrating human feedback to enhance reinforcement learning (RLHF) with crowd-sourced computation to enhance text-to-code generation. Additionally, we demonstrate that our Bayesian optimization framework supports AI alignment in code generation by distributing the feedback collection burden, highlighting the value of collecting human feedback of good quality. Our empirical evaluations demonstrate the efficacy of this approach, showcasing how LLM agents can be effectively trained for improved text-to-code generation. Our Bayesian optimization framework can be designed for general domain-specific languages, promoting the alignment of large language model capabilities with human feedback in AI-assisted programming for code generation.
- Abstract(参考訳): 本稿では、Github CopilotやAmazon CodeWhispererのようなAIツール(LLMエージェント)を介して、AI支援プログラミングと大規模言語モデル(LLM)がソフトウェア開発者の能力をどのように向上させるかを検討するとともに、人間からのフィードバックを統合して強化学習(RLHF)とクラウドソース計算を統合し、テキスト・ツー・コード生成を強化する。
さらに、ベイズ最適化フレームワークは、フィードバック収集の負担を分散することにより、コード生成におけるAIアライメントをサポートし、優れた品質のフィードバックを収集する価値を強調します。
提案手法の有効性を実証し,LLMエージェントをテキスト・コード生成の改善のために効果的に訓練する方法を示した。
我々のベイズ最適化フレームワークは、汎用ドメイン固有言語向けに設計することができ、コード生成のためのAI支援プログラミングにおいて、人間のフィードバックと大きな言語モデル機能の整合性を促進することができる。
関連論文リスト
- Enhancing Trust in Language Model-Based Code Optimization through RLHF: A Research Design [0.0]
本研究の目的は、人間のフィードバックを効果的に統合する、信頼性の高いLMを用いたコード最適化手法を開発することである。
この作業は、ソフトウェアエンジニアリングの協力的側面と人間中心の側面を前進させるという、より広範な目標と一致します。
論文 参考訳(メタデータ) (2025-02-10T18:48:45Z) - Optimizing AI-Assisted Code Generation [0.8901073744693314]
AI支援のコード生成ツールは、ソフトウェア開発を大きく変えた。
生成されたコードのセキュリティ、信頼性、機能、品質が保証されなければならない。
本稿では,これらの目標の現在までの実施について検討し,最適化戦略について検討する。
論文 参考訳(メタデータ) (2024-12-14T20:14:44Z) - Leveraging Large Language Models for Code Translation and Software Development in Scientific Computing [0.9668407688201359]
生成人工知能(GenAI)は、科学計算における生産性を変革する。
我々は、コード変換の効率的なプロセスを確立するために、プロンプトエンジニアリングとユーザ管理を組み合わせたCodeScribeというツールを開発した。
AIによるコード翻訳の課題にも対処し、科学計算における生産性向上のメリットを強調します。
論文 参考訳(メタデータ) (2024-10-31T16:48:41Z) - TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-09-15T00:38:34Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - AI-powered Code Review with LLMs: Early Results [10.37036924997437]
本稿では,Large Language Model (LLM) ベースのモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。
提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。
コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T08:27:50Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Natural Language Generation and Understanding of Big Code for
AI-Assisted Programming: A Review [9.355153561673855]
本稿では,Big Codeを用いてトレーニングしたトランスフォーマーベース大規模言語モデル(LLM)に焦点を当てる。
LLMは、コード生成、コード補完、コード翻訳、コード洗練、コードの要約、欠陥検出、クローン検出など、AI支援プログラミングアプリケーションを促進する上で重要な役割を担っている。
これらのアプリケーションにNLP技術とソフトウェア自然性を導入する上での課題と機会を探究する。
論文 参考訳(メタデータ) (2023-07-04T21:26:51Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。