論文の概要: Automating Database-Native Function Code Synthesis with LLMs
- arxiv url: http://arxiv.org/abs/2604.06231v1
- Date: Thu, 02 Apr 2026 02:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.09492
- Title: Automating Database-Native Function Code Synthesis with LLMs
- Title(参考訳): LLMを用いたデータベースネイティブ関数コードの自動生成
- Authors: Wei Zhou, Xuanhe Zhou, Qikang He, Guoliang Li, Bingsheng He, Quanqing Xu, Fan Wu,
- Abstract要約: データベースネイティブ関数を自動実装するLLMベースのDBCookerを提案する。
まず、関数キャラクタリゼーションモジュールは、複数のソース宣言を集約し、特別なコーディングを必要とする関数ユニットを特定し、ユニット間の依存関係をトレースする。
第二に,1)再利用可能な参照関数などの重要な要素を識別し,擬似コードに基づく符号化シーケンスを設計すること,2)確率的先行とコンポーネント認識によって導かれるハイブリッドフィリング・ザ・ブランクモデルにより,コアロジックと再利用可能なルーチンを統合すること,である。
- 参考スコア(独自算出の注目度): 45.585082035125886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Database systems incorporate an ever-growing number of functions in their kernels (a.k.a., database native functions) for scenarios like new application support and business migration. This growth causes an urgent demand for automatic database native function synthesis. While recent advances in LLM-based code generation (e.g., Claude Code) show promise, they are too generic for database-specific development. They often hallucinate or overlook critical context because database function synthesis is inherently complex and error-prone, where synthesizing a single function may involve registering multiple function units, linking internal references, and implementing logic correctly. To this end, we propose DBCooker, an LLM-based system for automatically synthesizing database native functions. It consists of three components. First, the function characterization module aggregates multi-source declarations, identifies function units that require specialized coding, and traces cross-unit dependencies. Second, we design operations to address the main synthesis challenges: (1) a pseudo-code-based coding plan generator that constructs structured implementation skeletons by identifying key elements such as reusable referenced functions; (2) a hybrid fill-in-the-blank model guided by probabilistic priors and component awareness to integrate core logic with reusable routines; and (3) three-level progressive validation, including syntax checking, standards compliance, and LLM-guided semantic verification. Finally, an adaptive orchestration strategy unifies these operations with existing tools and dynamically sequences them via the orchestration history of similar functions. Results show that DBCooker outperforms other methods on SQLite, PostgreSQL, and DuckDB (34.55% higher accuracy on average), and can synthesize new functions absent in the latest SQLite (v3.50).
- Abstract(参考訳): データベースシステムは、新しいアプリケーションのサポートやビジネス移行のようなシナリオのために、カーネル(すなわち、データベースネイティブ関数)に増え続ける関数を組み込んでいる。
この成長は、自動データベースネイティブ関数合成の急激な需要を引き起こす。
LLMベースのコード生成(例えばClaude Code)の最近の進歩は、将来性を示しているが、データベース固有の開発には汎用的すぎる。
データベース関数合成は本質的に複雑でエラーを起こしやすいため、複数の関数ユニットを登録し、内部参照をリンクし、論理を正しく実装する。
そこで本研究では,データベースネイティブ関数の自動合成システムであるDBCookerを提案する。
3つの構成要素から構成される。
まず、関数キャラクタリゼーションモジュールは、複数のソース宣言を集約し、特別なコーディングを必要とする関数ユニットを特定し、ユニット間の依存関係をトレースする。
第2に,1)再利用可能な参照関数などの重要な要素を識別し,構造化された実装スケルトンを構築する擬似コードベースのコーディング計画生成装置,(2)確率的事前とコンポーネント認識に導かれるハイブリッド・フィリング・ザ・ブランクモデル,(3)構文チェック,標準コンプライアンス,LLM誘導セマンティック検証を含む3段階のプログレッシブ・バリデーション・バリデーションを設計する。
最後に、適応的なオーケストレーション戦略は、これらの操作を既存のツールと統合し、同様の関数のオーケストレーション履歴を通じて動的にシーケンスする。
結果は、DBCookerがSQLite、PostgreSQL、DuckDBの他のメソッド(平均で34.55%高い精度)より優れており、最新のSQLite(v3.50)に欠けている新機能を合成できることを示している。
関連論文リスト
- PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。
ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文 参考訳(メタデータ) (2026-02-03T21:35:18Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Functional Consistency of LLM Code Embeddings: A Self-Evolving Data Synthesis Framework for Benchmarking [23.980033692974278]
埋め込みモデルは、クラスタリング、検索、特徴抽出といったタスクにおいて強力な性能を示し、生成モデルやクロスエンコーダよりも計算上の利点を提供している。
本稿では,多種多様なベンチマークを構築するために,関数指向コード自己進化という新しいデータ合成フレームワークを提案する。
私たちのフレームワークは、単一のコードインスタンスから4つのユニークなバリエーションを生成します。
論文 参考訳(メタデータ) (2025-08-27T04:17:02Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。