Fugu-MT 論文翻訳(概要): Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces

論文の概要: Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces

arxiv url: http://arxiv.org/abs/2409.00985v1
Date: Mon, 2 Sep 2024 07:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:59:10.417380
Title: Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces
Title（参考訳）: 共学習:会話型自然言語インタフェースを用いた多言語強化協調フレームワークのためのコード学習
Authors: Jiapeng Yu, Yuqian Wu, Yajing Zhan, Wenhao Guo, Zhou Xu, Raymond Lee,
Abstract要約: 本稿では,環境強化学習(E-RL)によるコード修正のためのマルチエージェントフレームワークであるCode Learning (Co-Learning)コミュニティを提案する。 702のエラーコードを持つ元のデータセットから複数のLSMのパフォーマンスを評価し、E-RLの報酬や罰則として使用する。実験の結果,E-RL法と比較すると,精度が3%向上し,時間コストが15%改善した。
参考スコア（独自算出の注目度）: 1.0721315948572339
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online question-and-answer (Q\&A) systems based on the Large Language Model (LLM) have progressively diverged from recreational to professional use. This paper proposed a Multi-Agent framework with environmentally reinforcement learning (E-RL) for code correction called Code Learning (Co-Learning) community, assisting beginners to correct code errors independently. It evaluates the performance of multiple LLMs from an original dataset with 702 error codes, uses it as a reward or punishment criterion for E-RL; Analyzes input error codes by the current agent; selects the appropriate LLM-based agent to achieve optimal error correction accuracy and reduce correction time. Experiment results showed that 3\% improvement in Precision score and 15\% improvement in time cost as compared with no E-RL method respectively. Our source code is available at: https://github.com/yuqian2003/Co_Learning
Abstract（参考訳）: 大規模言語モデル(LLM)に基づくオンライン質問・回答システム(Q\&A)は、レクリエーションから専門的な利用へと徐々に変化してきた。本稿では,コード学習コミュニティ(Code Learning (Co-Learning) Community)と呼ばれるコード修正のための環境強化学習(E-RL)を備えたマルチエージェントフレームワークを提案する。 702の誤り符号を持つ元のデータセットから複数のLSMの性能を評価し、E-RLの報酬または罰則として使用し、入力エラー符号を現在のエージェントで分析し、適切なLSMベースのエージェントを選択し、最適な誤り訂正精度を達成し、修正時間を短縮する。実験の結果,E-RL法と比較して精度が3倍,時間コストが15倍改善した。私たちのソースコードは、https://github.com/yuqian2003/Co_Learning.comで公開されています。

関連論文リスト

Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation [60.14439536069839]
マルチターンコード生成は、一段階回復可能なマルコフ決定プロセスとして定式化することができる。 Cobaltは、オンラインとオフラインのRLの利点を組み合わせた新しい方法である。私たちの結果は、コード生成のような反復的な意思決定タスクのための有望なソリューションとして、Cobaltを実証しています。
論文参考訳（メタデータ） (2026-02-03T18:08:41Z)
Multicalibration for LLM-based Code Generation [0.3568466510804538]
マルチキャリブレーションは、未校正トークン確率とベースライン校正の両方に対して、明確な改善をもたらす可能性がある。将来のコードLLMキャリブレーション研究のために、データセット(コード生成、可能性、正当性ラベルで構成される)を利用可能にしています。
論文参考訳（メタデータ） (2025-12-09T17:04:01Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning [14.208804782749793]
R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。 R1-Code-Interpreterはステップバイステップ推論中に複数のコードクエリを自律的に生成する。従来のRLの狭いドメインでの作業とは異なり、タスクの多様性と高価なコード実行のために、コードインタープリタのトレーニングがかなり難しいことが分かりました。
論文参考訳（メタデータ） (2025-05-27T18:47:33Z)
ACE-RLHF: Automated Code Evaluation and Socratic Feedback Generation Tool using Large Language Models and Reinforcement Learning with Human Feedback [4.503215272392276]
コードフィードバック生成のための大規模言語モデル(LLM)が不可欠である。 LLMはコンパイラが生成したエラーメッセージよりも理解しやすいフィードバックを生成する。 Reinforcement Learning with Human Feedback (RLHF)は、初心者の生徒がスクラッチから対話的にプログラミングをリーン化するのに役立つ。
論文参考訳（メタデータ） (2025-04-07T01:11:22Z)
IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。 IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。 IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。 LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-11-23T09:40:36Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)
Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-08-17T14:12:48Z)
RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文参考訳（メタデータ） (2023-07-10T05:18:18Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。