論文の概要: Anka: A Domain-Specific Language for Reliable LLM Code Generation
- arxiv url: http://arxiv.org/abs/2512.23214v1
- Date: Mon, 29 Dec 2025 05:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.409585
- Title: Anka: A Domain-Specific Language for Reliable LLM Code Generation
- Title(参考訳): Anka: 信頼性の高いLLMコード生成のためのドメイン特化言語
- Authors: Saif Khalfan Saif Al Mazrouei,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。
明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。
Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in code generation, yet they exhibit systematic errors on complex, multi-step programming tasks. We hypothesize that these errors stem from the flexibility of general-purpose languages, which permits multiple valid approaches and requires implicit state management. To test this hypothesis, we introduce Anka, a domain-specific language (DSL) for data transformation pipelines designed with explicit, constrained syntax that reduces ambiguity in code generation. Despite having zero prior training exposure to Anka, Claude 3.5 Haiku achieves 99.9% parse success and 95.8% overall task accuracy across 100 benchmark problems. Critically, Anka demonstrates a 40 percentage point accuracy advantage over Python on multi-step pipeline tasks (100% vs. 60%), where Python's flexible syntax leads to frequent errors in operation sequencing and variable management. Cross-model validation with GPT-4o-mini confirms this advantage (+26.7 percentage points on multi-step tasks). Our results demonstrate that: (1) LLMs can learn novel DSLs entirely from in-context prompts, achieving near-native accuracy; (2) constrained syntax significantly reduces errors on complex tasks; and (3) domain-specific languages purposefully designed for LLM generation can outperform general-purpose languages on which the LLM has extensive training. We release the complete language implementation, benchmark suite, and evaluation framework to facilitate further research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において顕著な機能を示すが、複雑なマルチステッププログラミングタスクの体系的なエラーを示す。
これらの誤りは、複数の有効なアプローチを許容し、暗黙的な状態管理を必要とする汎用言語の柔軟性に起因していると仮定する。
この仮説をテストするために、コード生成の曖昧さを軽減する明示的な制約付き構文で設計されたデータ変換パイプライン用のドメイン固有言語(DSL)であるAnkaを紹介します。
Anka 3.5 Haiku の事前トレーニングがゼロであるにもかかわらず、Claude 3.5 Haiku はパース成功率99.9%、総合タスク精度95.8%を100のベンチマーク問題で達成している。
批判的に、Anka氏はマルチステップパイプラインタスク(100%対60%)において、Pythonに対して40パーセントの精度上の優位性を示している。
GPT-4o-miniを用いたクロスモデル検証では、この利点が確認されている(マルチステップタスクでは+26.7ポイント)。
その結果,(1)LLMは文脈内プロンプトから完全に新しいDSLを学習でき,(2)制約付き構文は複雑なタスクのエラーを著しく減らし,(3)LLM生成用に意図的に設計されたドメイン固有言語は,LLMが広範囲に訓練された汎用言語よりも優れていることがわかった。
我々は、さらなる研究を容易にするために、完全な言語実装、ベンチマークスイート、評価フレームワークをリリースします。
関連論文リスト
- A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - Smoothie-Qwen: Post-Hoc Smoothing to Reduce Language Bias in Multilingual LLMs [4.881694369042022]
Smoothie-Qwenは、リトレーニングなしに言語のバイアスを軽減する軽量でポストホックな方法である。
提案手法はQwenモデルに適用し,意図しない中国語の出力を95%以上削減する。
論文 参考訳(メタデータ) (2025-07-08T05:30:51Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。