論文の概要: Context-Instrumental Data Distillation for Kubernetes Manifest Generation: Method and Experimental Evaluation
- arxiv url: http://arxiv.org/abs/2605.25835v1
- Date: Mon, 25 May 2026 13:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.140476
- Title: Context-Instrumental Data Distillation for Kubernetes Manifest Generation: Method and Experimental Evaluation
- Title(参考訳): Kubernetesマニュフェスト生成のためのコンテキストインスツルメンタルデータ蒸留:方法と実験的評価
- Authors: Andrey Kozachok, Anatoliy Bakaev, Aleksandr Kozachok, Shamil Magomedov, Artem Noev,
- Abstract要約: 本稿では,ドメイン固有言語(AML)におけるアーティファクトを生成するために,最大40億のパラメータを持つ小言語モデルの特殊化について検討する。
本稿では, 実Yファイルからの逆命令生成により, ソースコーパスを合成生成し, 拡張スキームで生成する, 文脈構造データ蒸留法を提案する。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines the specialization of Small Language Models (SLMs) with up to 4 billion parameters for generating artifacts in domain-specific languages (DSL). Kubernetes manifests are chosen as the target domain. We propose the context-instrumental data distillation method: the source corpus is formed through synthetic generation and, in an extended scheme, through reverse instruction generation from real Kubernetes YAML files, with pairs included in training only upon passing external validators and matching the domain context model. Unlike classical KL-divergence knowledge distillation, the baseline implementation reduces to supervised fine-tuning on instrumentally verified examples. The experimental section presents a pilot implementation under resource-constrained conditions: the DeepSeek-V4 Flash API serves as the teacher for synthetic generation, while Qwen2.5-Coder-1.5B-Instruct is fine-tuned via LoRA on CPU. On the K8s-Distill-Pilot corpus (train_1200, validation_100, test_200), we achieved full-pass@1 = 91.5% (183/200) with a stricter prompt formulation and max_new_tokens=768. The key empirical finding is that for Kubernetes YAML, result quality in the pilot depended more on strict output format requirements than on simply increasing the number of training examples.
- Abstract(参考訳): 本稿では,ドメイン固有言語(DSL)のアーティファクトを生成するために,最大40億のパラメータを持つSLM(Small Language Models)の特殊化について検討する。
Kubernetesマニフェストはターゲットドメインとして選択される。
本稿では、実Kubernetes YAMLファイルからの逆命令生成を通じて、ソースコーパスを合成生成し、拡張スキームで生成し、外部バリデータを渡したりドメインコンテキストモデルに適合させたりしたときにのみ、トレーニングに含まれるペアを含むコンテキスト内データ蒸留手法を提案する。
古典的なKL分散知識蒸留とは異なり、基本実装は機器的に検証された例に基づく教師付き微調整に還元される。
DeepSeek-V4 Flash APIは合成生成の教師として機能し、Qwen2.5-Coder-1.5B-InstructはCPU上でLoRAを介して微調整される。
K8s-Distill-Pilot corpus (train_1200, validation_100, test_200)では、より厳密なプロンプト式とmax_new_tokens=768でフルパス@1 = 91.5% (183/200)を達成した。
Kubernetes YAMLでは、結果としてパイロットの品質は、単にトレーニング例の数を増やすことよりも、厳格な出力フォーマット要件に依存している。
関連論文リスト
- Adaptation of Embedding Models to Financial Filings via LLM Distillation [10.744318713371383]
本稿では,基礎として汎用検索埋め込みモデルを用いて,ラベルなしコーパスから特殊モデルを訓練するスケーラブルパイプラインを提案する。
MRR$textt@$5で平均27.7%,DCG$textt@$5で平均44.6%,21,800以上のクエリドキュメントペアで測定された14のファイナンシャルファイリングタイプに対して平均44.6%の改善が得られた。
論文 参考訳(メタデータ) (2025-12-08T22:43:14Z) - LLM as a Neural Architect: Controlled Generation of Image Captioning Models Under Strict API Contracts [48.83701310501069]
LLM誘導型ニューラルネットワーク探索パイプラインであるNN-Captionを提案する。
LEMURの分類バックボーンからCNNエンコーダを構成することで、実行可能な画像キャプチャモデルを生成する。
この作業では、プロンプトベースのコード生成と自動評価を統合するパイプラインを提示する。
論文 参考訳(メタデータ) (2025-12-07T10:47:28Z) - David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。
NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。
4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文 参考訳(メタデータ) (2025-10-15T21:37:02Z) - The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution [2.334824705384299]
大規模言語モデルによって生成されたJavaScriptコードが、どのモデルで生成されたかを明らかにすることができるかどうかについて、最初の大規模研究を行った。
それぞれのLLMが、同じファミリーやパラメータサイズに属するモデルであっても、独自のスタイル的シグネチャを残していることを示す。
LLM-NodeJSは、20の大規模言語モデルから5万のNode.jsバックエンドプログラムのデータセットである。
論文 参考訳(メタデータ) (2025-10-12T07:51:03Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。