論文の概要: FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system
- arxiv url: http://arxiv.org/abs/2410.21349v2
- Date: Fri, 08 Nov 2024 16:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:45.542722
- Title: FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system
- Title(参考訳): FALCON: フィードバック駆動型適応長短期メモリ強化符号化システム
- Authors: Zeyuan Li, Yangfan He, Lewei He, Jianhui Wang, Tianyu Shi, Bin Lei, Yuchen Li, Qiuwu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、コードの自動生成において大きな進歩を遂げた。
教師付き微調整(SFT)と人間からのフィードバック(RLHF)からの強化学習の課題は、正確で人間中心のコードを生成する失敗につながった。
フィードバック駆動型適応長/短周期メモリ強化符号化最適化(FALCON)を提案する。
- 参考スコア(独自算出の注目度): 8.775210512734603
- License:
- Abstract: Recently, large language models (LLMs) have achieved significant progress in automated code generation. Despite their strong instruction-following capabilities, these models frequently struggled to align with user intent in coding scenarios. In particular, they were hampered by datasets that lacked diversity and failed to address specialized tasks or edge cases. Furthermore, challenges in supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) led to failures in generating precise, human-intent-aligned code. To tackle these challenges and improve the code generation performance for automated programming systems, we propose Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization (i.e., FALCON). FALCON is structured into two hierarchical levels. From the global level, long-term memory improves code quality by retaining and applying learned knowledge. At the local level, short-term memory allows for the incorporation of immediate feedback from compilers and AI systems. Additionally, we introduce meta-reinforcement learning with feedback rewards to solve the global-local bi-level optimization problem and enhance the model's adaptability across diverse code generation tasks. Extensive experiments demonstrate that our technique achieves state-of-the-art performance, leading other reinforcement learning methods by more than 4.5 percentage points on the MBPP benchmark and 6.1 percentage points on the Humaneval benchmark. The open-sourced code is publicly available at https://github.com/titurte/FALCON.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) はコードの自動生成において大きな進歩を遂げている。
強力な命令追従機能にもかかわらず、これらのモデルはコーディングシナリオにおけるユーザの意図と整合するのにしばしば苦労した。
特に、多様性に欠け、専門的なタスクやエッジケースに対処できなかったデータセットによって妨げられた。
さらに、教師付き微調整(SFT)と人間からのフィードバックからの強化学習(RLHF)の課題は、正確でインテリジェントに整合したコードを生成するのに失敗につながった。
これらの課題に対処し、自動プログラムシステムにおけるコード生成性能を向上させるために、フィードバック駆動型適応長/短命メモリ強化符号化最適化(FALCON)を提案する。
FALCONは2つの階層レベルに構成されている。
世界レベルでは、学習知識の保持と適用により、長期記憶はコード品質を改善する。
ローカルレベルでは、短期記憶はコンパイラやAIシステムからの即時フィードバックを組み込むことができる。
さらに,グローバルな局所的二段階最適化問題の解決と,多様なコード生成タスクにおけるモデルの適応性向上のために,フィードバック報酬を伴うメタ強化学習を導入する。
その結果,MBPPベンチマークでは4.5ポイント,Humanevalベンチマークでは6.1ポイント,その他の強化学習手法では4.5ポイント以上を達成できた。
オープンソースコードはhttps://github.com/titurte/FALCONで公開されている。
関連論文リスト
- From RAG to Memory: Non-Parametric Continual Learning for Large Language Models [6.380729797938521]
検索強化世代(RAG)は、新しい情報を導入する主要な方法となっている。
最近のRAGは、知識グラフのような様々な構造を持つベクトル埋め込みを拡大して、いくつかのギャップ、すなわちセンスメイキングと連想性に対処している。
我々は,現実的,感覚的,連想的なメモリタスクにおいて,標準RAGを総合的に上回るフレームワークであるHippoRAG 2を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:26:02Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。
従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。
コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文 参考訳(メタデータ) (2025-01-14T07:16:43Z) - On the Convergence of Continual Federated Learning Using Incrementally Aggregated Gradients [2.2530496464901106]
機械学習の聖杯は、連続的フェデレーション学習(CFL)によって、ストリーミングデータから学習しながら、AIシステムの効率、プライバシ、スケーラビリティを高めることである。
本稿では、エッジベースのメモリ勾配更新と、現在のデータに対する集約勾配からなる新しいリプレイメモリベースのフェデレーション戦略を提案する。
我々は,C-FLAGが,タスクとクラスインクリメンタル設定の両方において,精度や忘れなどの指標に関して,最先端のベースラインを上回っていることを実証的に示す。
論文 参考訳(メタデータ) (2024-11-12T17:36:20Z) - Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - Bridge and Hint: Extending Pre-trained Language Models for Long-Range Code [20.60634057560564]
我々は,lOng-range符号に対する事前学習言語モデルの拡張フレームワークを提案する。
EXPOには、Bridge MemoryとHint Memoryという2つの革新的なメモリメカニズムが組み込まれている。
我々は、UniXcoderのような5つの人気のある事前学習言語モデルにおけるEXPOの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-18T09:06:41Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。