論文の概要: CodeLSI: Leveraging Foundation Models for Automated Code Generation with Low-Rank Optimization and Domain-Specific Instruction Tuning
- arxiv url: http://arxiv.org/abs/2509.14373v1
- Date: Wed, 17 Sep 2025 19:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.95063
- Title: CodeLSI: Leveraging Foundation Models for Automated Code Generation with Low-Rank Optimization and Domain-Specific Instruction Tuning
- Title(参考訳): CodeLSI:低ランク最適化とドメイン特化命令チューニングによる自動コード生成のための基礎モデルを活用する
- Authors: Huy Le, Phong Nguyen, Hao Do, Tuan Nguyen, Thien Pham, Anh Nguyen-Duc, Tho Quan,
- Abstract要約: 本稿では,低ランク最適化とドメイン固有命令チューニングを組み合わせたフレームワークであるCodeLSIを紹介する。
本研究の目的は、特定のドメインに適した高品質なコードを生成するための新しいアプローチであるCodeLSIを開発し、評価することである。
- 参考スコア(独自算出の注目度): 7.859346610442163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Automated code generation using Foundation Models (FMs) offers promising solutions for enhancing software development efficiency. However, challenges remain in ensuring domain specificity, cost-effectiveness, and security - especially when relying on third-party APIs. This paper introduces CodeLSI, a framework that combines low-rank optimization and domain-specific instruction tuning to address these challenges. Objectives: The aim of this study is to develop and evaluate CodeLSI, a novel approach for generating high-quality code tailored to specific domains, using FMs fine-tuned on company infrastructure without dependence on external APIs. Methods: CodeLSI applies low-rank adaptation techniques to reduce the computational cost of model pre-training and fine-tuning. Domain-specific instruction tuning is employed to align code generation with organizational needs. We implemented and tested the framework on real-world JavaScript coding tasks using datasets drawn from internal software projects. Results: Experimental evaluations show that CodeLSI produces high-quality, context aware code. It outperforms baseline models in terms of relevance, accuracy, and domain fit. The use of low-rank optimization significantly reduced resource requirements, enabling scalable training on company-owned infrastructure. Conclusion: CodeLSI demonstrates that combining low-rank optimization with domain specific tuning can enhance the practicality and performance of FMs for automated code generation. This approach provides a secure, cost-efficient alternative to commercial API based solutions and supports faster, more targeted innovation in software development.
- Abstract(参考訳): コンテキスト: Foundation Models(FM)を使用したコードの自動生成は、ソフトウェア開発の効率を高めるための有望なソリューションを提供します。
しかし、特にサードパーティのAPIに依存する場合、ドメインの特異性、コスト効率、セキュリティの確保には課題が残る。
本稿では,これらの課題に対処するために,低ランク最適化とドメイン固有命令チューニングを組み合わせたフレームワークであるCodeLSIを紹介する。
目的:本研究の目的は,外部APIに依存しないFMを使用して,特定のドメインに適した高品質なコードを生成するための新しいアプローチであるCodeLSIを開発し,評価することである。
方法: CodeLSIは、モデル事前学習と微調整の計算コストを削減するために、低ランク適応技術を適用している。
ドメイン固有のインストラクションチューニングは、コード生成と組織的ニーズの整合に使用される。
内部ソフトウェアプロジェクトから抽出したデータセットを用いて,実世界のJavaScriptコーディングタスク上でフレームワークを実装し,テストした。
結果: 実験結果から, CodeLSI は高品質でコンテキスト対応のコードを生成することがわかった。
関連性、正確性、ドメイン適合性の観点から、ベースラインモデルよりも優れています。
低ランク最適化を使用することで、リソースの要求を大幅に削減し、企業所有のインフラストラクチャ上でスケーラブルなトレーニングを可能にした。
結論: CodeLSIは、低ランク最適化とドメイン固有チューニングを組み合わせることで、自動コード生成のためのFMの実現性と性能を向上させることを実証している。
このアプローチは、商用APIベースのソリューションに代わる、セキュアでコスト効率のよい代替手段を提供し、ソフトウェア開発におけるより速く、よりターゲットを絞ったイノベーションをサポートする。
関連論文リスト
- CodeGrad: Integrating Multi-Step Verification with Gradient-Based LLM Refinement [12.792149709662874]
CodeGradは厳密な検証技術を反復生成ループに直接組み込む、原則化されたフレームワークを導入している。
コードを微分可能な変数として扱い、構造化されたフィードバックと数学的制約をテキストの擬似階調に変換する。
我々は,HumanEval,HumanEval+,LiveCodeBenchベンチマーク上でCodeGradを評価する。
論文 参考訳(メタデータ) (2025-08-12T22:03:54Z) - ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training [1.4709455282157278]
Auto-Train for Code Translation (ACT)は、オープンソースのLarge Language Models (LLM)を社内で微調整することで、コード翻訳機能を改善することを目的としている。
ACTの自動パイプラインはこれらのモデルの性能を大幅に向上させ、オープンソースアクセシビリティとクローズドソースソリューションのパフォーマンスのギャップを狭める。
我々の結果は、ACTがオープンソースモデルの有効性を一貫して強化し、企業や開発者が安全で信頼性の高い代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-07-22T11:35:35Z) - Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。
従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。
コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文 参考訳(メタデータ) (2025-01-14T07:16:43Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。