論文の概要: Lessons Learned: A Multi-Agent Framework for Code LLMs to Learn and Improve
- arxiv url: http://arxiv.org/abs/2505.23946v1
- Date: Thu, 29 May 2025 18:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.632632
- Title: Lessons Learned: A Multi-Agent Framework for Code LLMs to Learn and Improve
- Title(参考訳): 学んだこと - コードLLMの学習と改善のためのマルチエージェントフレームワーク
- Authors: Yuanzhe Liu, Ryan Deng, Tim Kaler, Xuhao Chen, Charles E. Leiserson, Yao Ma, Jie Chen,
- Abstract要約: エージェントのチームは、お互いの成功と失敗から学び、自身のパフォーマンスを改善することができる、と私たちは主張する。
本研究では,授業ベースのコラボレーションフレームワークを提案し,授業ソリケーション-バンク選択機構を設計し,学習した小さなLLMのチームがより大きなLLMを上回り得ることを示す。
- 参考スコア(独自算出の注目度): 8.23436477088867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that LLMs possess different skills and specialize in different tasks. In fact, we observe that their varied performance occur in several levels of granularity. For example, in the code optimization task, code LLMs excel at different optimization categories and no one dominates others. This observation prompts the question of how one leverages multiple LLM agents to solve a coding problem without knowing their complementary strengths a priori. We argue that a team of agents can learn from each other's successes and failures so as to improve their own performance. Thus, a lesson is the knowledge produced by an agent and passed on to other agents in the collective solution process. We propose a lesson-based collaboration framework, design the lesson solicitation--banking--selection mechanism, and demonstrate that a team of small LLMs with lessons learned can outperform a much larger LLM and other multi-LLM collaboration methods.
- Abstract(参考訳): 近年の研究では、LLMは異なるスキルを持ち、異なるタスクに特化していることが示されている。
実際、様々な性能が様々なレベルの粒度で起こることが観察されている。
例えば、コード最適化タスクでは、コードLLMは異なる最適化カテゴリで優れており、誰も他を支配していません。
この観察は、先行する強みを知らずに、複数のLLMエージェントをどのように利用してコーディング問題を解決するのかという疑問を提起する。
エージェントのチームは、お互いの成功と失敗から学び、自身のパフォーマンスを改善することができる、と私たちは主張する。
このように、レッスンはエージェントが作り出した知識であり、集団解法プロセスにおいて他のエージェントに渡される。
授業ベースのコラボレーションフレームワークを提案し,授業ソリケーション・バンク選択機構を設計し,学習した小さなLLMのチームが,より大きなLLMや他の複数LLMコラボレーション手法より優れていることを示す。
関連論文リスト
- MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning [26.736078756799635]
新しいポストトレーニングパラダイムMAPoRL(強化学習を用いた協調LLMのためのマルチエージェントポストトレーニング)を導入する。
MAPoRLでは、複数のLLMが独立して独自の応答を生成し、最終回答を協調的に改善するためのマルチターンディスカッションを行う。
MAPoRL検証器は、回答の正しさを検証するスコアを割り当てることで、回答と議論の両方を評価する。
スコアはコトレーニング報酬として機能し、マルチエージェントRLによって最大化される。
論文 参考訳(メタデータ) (2025-02-25T18:33:48Z) - Dynamic Ensemble Reasoning for LLM Experts [35.774197263383996]
本研究では,動的入力を前提とした複数のLLMエキスパートの強みを統合するために,DERと呼ばれる動的アンサンブル推論パラダイムを提案する。
提案手法では,最先端のベースラインに比べて計算資源が少ないため,性能が向上する。
論文 参考訳(メタデータ) (2024-12-10T12:05:56Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。