論文の概要: CosmoCore Affective Dream-Replay Reinforcement Learning for Code Generation
- arxiv url: http://arxiv.org/abs/2510.18895v1
- Date: Mon, 20 Oct 2025 06:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.217617
- Title: CosmoCore Affective Dream-Replay Reinforcement Learning for Code Generation
- Title(参考訳): コード生成のためのCosmoCore Affective Dream-Replay Reinforcement Learning
- Authors: Santhosh Kumar Ravindran,
- Abstract要約: 大規模言語モデルにおけるコード生成を強化するために感情信号を統合する強化学習アーキテクチャであるCosmoCoreを紹介する。
高負の(クレンジ)エピソードは、政治外の更新中に5倍のリプレイのためにドリームキューで優先順位付けされ、低サプライズの成功は、過信やバッファの肥大を防ぐためにプルーニングされる。
CosmoCoreは幻覚コード(例えば構文エラーや論理的バグ)を48%削減し、自己訂正を45%高速化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce CosmoCore, a neuroscience-inspired reinforcement learning (RL) architecture that integrates affective signals to enhance code generation in large language models (LLMs). Motivated by human and animal learning where embarrassment from mistakes drives rapid correction, as observed in training a puppy to avoid repeating errors after a single scolding CosmoCore tags code generation trajectories with valence and surprise using a lightweight multi-layer perceptron (MLP). High-negative valence (cringe) episodes, such as buggy code outputs, are prioritized in a Dream Queue for five-fold replay during off-policy updates, while low-surprise successes are pruned to prevent overconfidence and buffer bloat. Evaluated on code generation benchmarks like HumanEval and BigCodeBench, alongside simulations with a custom data pipeline environment, CosmoCore reduces hallucinated code (e.g., syntax errors or logical bugs) by 48\% and accelerates self-correction by 45\%. Local experiments using Hugging Face models in a PySpark environment validate these gains, with code snippets provided for replication. Ablations confirm valence tagging boosts curiosity in exploration, and pruning mitigates inefficiency. This framework extends RL from human feedback (RLHF) for more emotionally aware code assistants, with applications in IDEs and data pipelines. Code and the custom mini-world simulation are released.
- Abstract(参考訳): ニューロサイエンスにインスパイアされた強化学習(RL)アーキテクチャであるCosmoCoreを紹介する。
ミスによる恥ずかしさが素早く修正される人間や動物による学習によって動機づけられた子犬は、軽量の多層パーセプトロン(MLP)を使用して、単一のスライディングCosmoCoreタグのコード生成トラジェクトリを価と驚きで生成した後、繰り返しエラーを避けるために子犬を訓練する。
バグだらけのコードアウトプットなどの高負のバレンス(クレンジ)エピソードは、オフラインの更新中に5倍のリプレイのためにドリームキューで優先順位付けされ、低サプライズの成功は自信過剰やバッファの肥大を防ぐために打ち切られる。
HumanEvalやBigCodeBenchのようなコード生成ベンチマークに基づいて評価され、カスタムデータパイプライン環境によるシミュレーションと並行して、CosmoCoreは幻覚的コード(例えば、構文エラーや論理的バグ)を48\%削減し、自己修正を45\%加速する。
PySpark環境でHugging Faceモデルを使用したローカル実験では、レプリケーション用のコードスニペットが提供されている。
アブレーションにより、価タグ付けは探究における好奇心を高め、刈り取りは非効率性を低下させる。
このフレームワークは、RLを人間からのフィードバック(RLHF)から拡張し、IDEやデータパイプラインのアプリケーションとともに、より感情的に認識されたコードアシスタントを提供する。
コードとカスタムのミニワールドシミュレーションがリリースされる。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Hotfixing Large Language Models for Code [8.243596444097506]
コードのための大規模言語モデル(LLM4Code)は、コード補完や生成といったタスクを補助し、開発者の不可欠な部分となっている。
これらのモデルは、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。
本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。
論文 参考訳(メタデータ) (2024-08-11T08:34:43Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。