論文の概要: FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system
- arxiv url: http://arxiv.org/abs/2410.21349v2
- Date: Fri, 08 Nov 2024 16:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:45.542722
- Title: FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization system
- Title(参考訳): FALCON: フィードバック駆動型適応長短期メモリ強化符号化システム
- Authors: Zeyuan Li, Yangfan He, Lewei He, Jianhui Wang, Tianyu Shi, Bin Lei, Yuchen Li, Qiuwu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、コードの自動生成において大きな進歩を遂げた。
教師付き微調整(SFT)と人間からのフィードバック(RLHF)からの強化学習の課題は、正確で人間中心のコードを生成する失敗につながった。
フィードバック駆動型適応長/短周期メモリ強化符号化最適化(FALCON)を提案する。
- 参考スコア(独自算出の注目度): 8.775210512734603
- License:
- Abstract: Recently, large language models (LLMs) have achieved significant progress in automated code generation. Despite their strong instruction-following capabilities, these models frequently struggled to align with user intent in coding scenarios. In particular, they were hampered by datasets that lacked diversity and failed to address specialized tasks or edge cases. Furthermore, challenges in supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) led to failures in generating precise, human-intent-aligned code. To tackle these challenges and improve the code generation performance for automated programming systems, we propose Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization (i.e., FALCON). FALCON is structured into two hierarchical levels. From the global level, long-term memory improves code quality by retaining and applying learned knowledge. At the local level, short-term memory allows for the incorporation of immediate feedback from compilers and AI systems. Additionally, we introduce meta-reinforcement learning with feedback rewards to solve the global-local bi-level optimization problem and enhance the model's adaptability across diverse code generation tasks. Extensive experiments demonstrate that our technique achieves state-of-the-art performance, leading other reinforcement learning methods by more than 4.5 percentage points on the MBPP benchmark and 6.1 percentage points on the Humaneval benchmark. The open-sourced code is publicly available at https://github.com/titurte/FALCON.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) はコードの自動生成において大きな進歩を遂げている。
強力な命令追従機能にもかかわらず、これらのモデルはコーディングシナリオにおけるユーザの意図と整合するのにしばしば苦労した。
特に、多様性に欠け、専門的なタスクやエッジケースに対処できなかったデータセットによって妨げられた。
さらに、教師付き微調整(SFT)と人間からのフィードバックからの強化学習(RLHF)の課題は、正確でインテリジェントに整合したコードを生成するのに失敗につながった。
これらの課題に対処し、自動プログラムシステムにおけるコード生成性能を向上させるために、フィードバック駆動型適応長/短命メモリ強化符号化最適化(FALCON)を提案する。
FALCONは2つの階層レベルに構成されている。
世界レベルでは、学習知識の保持と適用により、長期記憶はコード品質を改善する。
ローカルレベルでは、短期記憶はコンパイラやAIシステムからの即時フィードバックを組み込むことができる。
さらに,グローバルな局所的二段階最適化問題の解決と,多様なコード生成タスクにおけるモデルの適応性向上のために,フィードバック報酬を伴うメタ強化学習を導入する。
その結果,MBPPベンチマークでは4.5ポイント,Humanevalベンチマークでは6.1ポイント,その他の強化学習手法では4.5ポイント以上を達成できた。
オープンソースコードはhttps://github.com/titurte/FALCONで公開されている。
関連論文リスト
- Bridge and Hint: Extending Pre-trained Language Models for Long-Range Code [20.60634057560564]
我々は,lOng-range符号に対する事前学習言語モデルの拡張フレームワークを提案する。
EXPOには、Bridge MemoryとHint Memoryという2つの革新的なメモリメカニズムが組み込まれている。
我々は、UniXcoderのような5つの人気のある事前学習言語モデルにおけるEXPOの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-18T09:06:41Z) - NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - Rich Feature Construction for the Optimization-Generalization Dilemma [18.721567020497968]
我々は、モデルで使用できる潜在的に有用な機能のパレットを含むリッチな表現(RFC)を構築する。
RFCは、6つのOoDメソッドが挑戦的な不変トレーニングベンチマークで最高のパフォーマンスを達成するのを一貫して支援します。
現実的な Camelyon17 タスクでは,OoD と OoD の両手法が,従来の計算可能な結果に対して少なくとも 5% 以上の性能を発揮する。
論文 参考訳(メタデータ) (2022-03-24T20:39:33Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。