論文の概要: Novel Preprocessing Technique for Data Embedding in Engineering Code
Generation Using Large Language Model
- arxiv url: http://arxiv.org/abs/2311.16267v2
- Date: Tue, 30 Jan 2024 08:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:25:45.932512
- Title: Novel Preprocessing Technique for Data Embedding in Engineering Code
Generation Using Large Language Model
- Title(参考訳): 大規模言語モデルを用いたエンジニアリングコード生成におけるデータ埋め込みのための新しい前処理手法
- Authors: Yu-Chen Lin, Akhilesh Kumar, Norman Chang, Wenliang Zhang, Muhammad
Zakir, Rucha Apte, Haiyang He, Chao Wang, Jyh-Shing Roger Jang
- Abstract要約: ドメイン固有コード生成におけるLarge Language Models(LLM)の性能向上に寄与する4つの主な貢献について述べる。
本稿では,LLMによって駆動されるCDRC(Chein of Density for Renovation Credibility)と,データ信頼性を評価するAdaptive Text Renovation(ATR)アルゴリズムを紹介する。
また,Implicit Knowledge Expansion and Contemplation (IKEC) Prompt技術を開発した。
- 参考スコア(独自算出の注目度): 7.74830226656449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present four main contributions to enhance the performance of Large
Language Models (LLMs) in generating domain-specific code: (i) utilizing
LLM-based data splitting and data renovation techniques to improve the semantic
representation of embeddings' space; (ii) introducing the Chain of Density for
Renovation Credibility (CoDRC), driven by LLMs, and the Adaptive Text
Renovation (ATR) algorithm for assessing data renovation reliability; (iii)
developing the Implicit Knowledge Expansion and Contemplation (IKEC) Prompt
technique; and (iv) effectively refactoring existing scripts to generate new
and high-quality scripts with LLMs. By using engineering simulation software
RedHawk-SC as a case study, we demonstrate the effectiveness of our data
pre-processing method for expanding and categorizing scripts. When combined
with IKEC, these techniques enhance the Retrieval-Augmented Generation (RAG)
method in retrieving more relevant information, ultimately achieving a 73.33%
"Percentage of Correct Lines" for code generation problems in MapReduce
applications.
- Abstract(参考訳): ドメイン固有コード生成におけるLLM(Large Language Models)の性能向上に寄与する4つの主な貢献について述べる。
一 埋め込み空間のセマンティック表現を改善するため、LLMに基づくデータ分割及びデータリノベーション技術を活用すること。
(ii) llmsにより駆動される改善信頼性(codrc)のための密度連鎖の導入及びデータ修正信頼性を評価するための適応テキスト修正(atr)アルゴリズム
(iii)暗黙的知識拡張・熟考(ikec)即興技術の開発
(iv) 既存のスクリプトを効果的にリファクタリングし、LLMで新しい高品質のスクリプトを生成する。
工学シミュレーションソフトウェアredhawk-scをケーススタディとして利用し,スクリプトの展開と分類におけるデータ前処理手法の有効性を実証する。
IKECと組み合わせると、これらの技術はより関連性の高い情報を取得するために検索-拡張生成(RAG)法を強化し、MapReduceアプリケーションにおけるコード生成問題に対する73.33%の「正しい行の比率」を達成する。
関連論文リスト
- Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.0]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - RA-Rec: An Efficient ID Representation Alignment Framework for LLM-based Recommendation [9.606111709136675]
LLMに基づくレコメンデーションのための効率的なID表現フレームワークであるRA-Recを提案する。
RA-Recは最先端のメソッドを大幅に上回り、最大3.0%のHitRate@100の改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T02:14:58Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Instruction Fusion: Advancing Prompt Evolution through Hybridization [28.691691883519542]
本稿では,既存の即時進化手法の制約について検討し,新しいアプローチであるインストラクション・フュージョン(IF)を導入する。
IFは、ハイブリッド化プロセスを通じて、2つの異なるプロンプトを革新的に組み合わせ、コードLLMのトレーニングプロンプトの進化を強化する。
実験の結果,提案手法は従来の手法の欠点を効果的に解決し,コードLLMの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-25T11:00:37Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Towards Better Serialization of Tabular Data for Few-shot Classification
with Large Language Models [0.0]
本稿では,3つの新しいシリアライズ手法を提案する。
この方法は、ドメイン固有のデータセットを処理する際のLLMの性能を大幅に向上させる。
従来のモデルよりも正確さと効率性が優れていることを実証します。
論文 参考訳(メタデータ) (2023-12-18T21:11:17Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。