論文の概要: Exploring different approaches to customize language models for domain-specific text-to-code generation
- arxiv url: http://arxiv.org/abs/2603.16526v1
- Date: Tue, 17 Mar 2026 13:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.311074
- Title: Exploring different approaches to customize language models for domain-specific text-to-code generation
- Title(参考訳): ドメイン固有のテキスト・コード生成のための言語モデルをカスタマイズするための異なるアプローチの探索
- Authors: Luís Freire, Fernanda A. Andaló, Nicki Skafte Detlefsen,
- Abstract要約: 合成データセットを用いて、ドメイン固有のコード生成に適用可能な言語モデルについて検討する。
Pythonエコシステム内の3つのドメインにわたるプログラミング演習のデータセットを構築します。
提案手法は,少数ショットプロンプト,検索拡張生成,パラメータ効率の微調整の3つである。
- 参考スコア(独自算出の注目度): 43.95570557372863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in generating executable code from natural language descriptions. However, general-purpose models often struggle in specialized programming contexts where domain-specific libraries, APIs, or conventions must be used. Customizing smaller open-source models offers a cost-effective alternative to relying on large proprietary systems. In this work, we investigate how smaller language models can be adapted for domain-specific code generation using synthetic datasets. We construct datasets of programming exercises across three domains within the Python ecosystem: general Python programming, Scikit-learn machine learning workflows, and OpenCV-based computer vision tasks. Using these datasets, we evaluate three customization strategies: few-shot prompting, retrieval-augmented generation (RAG), and parameter-efficient fine-tuning using Low-Rank Adaptation (LoRA). Performance is evaluated using both benchmark-based metrics and similarity-based metrics that measure alignment with domain-specific code. Our results show that prompting-based approaches such as few-shot learning and RAG can improve domain relevance in a cost-effective manner, although their impact on benchmark accuracy is limited. In contrast, LoRA-based fine-tuning consistently achieves higher accuracy and stronger domain alignment across most tasks. These findings highlight practical trade-offs between flexibility, computational cost, and performance when adapting smaller language models for specialized programming tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語記述から実行可能なコードを生成する強力な能力を示している。
しかしながら、汎用モデルは、ドメイン固有のライブラリ、API、規約を使用する必要がある特別なプログラミングコンテキストで苦労することが多い。
より小さなオープンソースモデルをカスタマイズすることは、大規模なプロプライエタリなシステムに依存するコスト効率のよい代替手段となる。
本研究では,合成データセットを用いたドメイン固有コード生成において,より小さな言語モデルをどのように適用できるかを検討する。
我々は,Pythonエコシステム内の3つの領域 – 汎用Pythonプログラミング,Scikit学習機械学習ワークフロー,OpenCVベースのコンピュータビジョンタスク – にわたるプログラミング演習のデータセットを構築した。
これらのデータセットを用いて、少数ショットプロンプト、検索強化生成(RAG)、Low-Rank Adaptation(LoRA)を用いたパラメータ効率の高い微調整の3つのカスタマイズ戦略を評価する。
パフォーマンスは、ベンチマークベースのメトリクスと、ドメイン固有のコードとの整合性を測定する類似性ベースのメトリクスの両方を使用して評価される。
提案手法は,ベンチマーク精度への影響は限定的ではあるが,少数ショット学習やRAGなどのプロンプトベースアプローチにより,コスト効率のよいドメイン関連性の向上が期待できることを示す。
対照的に、LoRAベースのファインチューニングは、多くのタスク間で高い精度と強いドメインアライメントを実現する。
これらの知見は、特殊プログラミングタスクに対してより小さな言語モデルを適用する際に、柔軟性、計算コスト、性能の実践的なトレードオフを浮き彫りにする。
関連論文リスト
- Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks [4.448709087838503]
小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。
本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
論文 参考訳(メタデータ) (2025-07-03T20:32:36Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。
このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。
本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文 参考訳(メタデータ) (2025-01-09T14:00:01Z) - GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Cross-Domain Deep Code Search with Meta Learning [14.618183588410194]
ドメイン固有のコード検索のための新しいアプローチであるCroCSを提案する。
CroCSは、プログラム表現モデルを一般的なプログラミング言語の大規模なコーパス上で事前訓練するトランスファーラーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2022-01-01T09:00:48Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。