論文の概要: Token Optimization Strategies for LLM-Based Oracle-to-PostgreSQL Migration
- arxiv url: http://arxiv.org/abs/2605.28557v1
- Date: Wed, 27 May 2026 14:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.12826
- Title: Token Optimization Strategies for LLM-Based Oracle-to-PostgreSQL Migration
- Title(参考訳): LLMに基づくOracle-to-PostgreSQLマイグレーションのためのトークン最適化手法
- Authors: Oleg Grynets, Dmytro Babarytskyi, Vasyl Lyashkevych,
- Abstract要約: LLMベースのOracle2Postgreマイグレーションは、高いトークン消費、長いコンテキストの劣化、方言固有のセマンティックな違い、セマンティックドリフトのリスクによって制限されている。
本稿では,Oracle2Postgre移行における制約付き変換問題としてトークン最適化を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly used for software modernization, code translation, and database migration. However, LLM-based Oracle2PostgreSQL migration remains constrained by high token consumption, long-context degradation, dialect-specific semantic differences, and the risk of semantic drift during query transformation. Direct inclusion of large Oracle SQL/PL-SQL artefacts, schema definitions, procedural logic, and migration instructions into the model context increases cost and may reduce generation quality. This paper shows token optimization as a constrained transformation problem in LLM-based Oracle2PostgreSQL migration. The study formalizes and evaluates twelve token optimization strategies: baseline representation, context pruning, minification, DSL-based semantic compression, metadata augmentation, context refactoring, schema distillation, adaptive routing, AST-based minification, identifier masking, output constraint enforcement, and hybrid optimization. The strategies are evaluated on samples of 10 and 100 Oracle SQL queries using Valid Syntax Rate, Exact Match, Semantic Match, CodeBLEU, and Token Efficiency. The results show that mild context pruning preserves semantic quality almost at the baseline level, achieving 89.75% Semantic Match on the 100-query sample compared with 89.80% for the unoptimized baseline. Adaptive routing provides the best practical trade-off, reducing input tokens by 8.72% and output tokens by 5.49% while maintaining 88.40% Semantic Match and increasing Token Efficiency by 6.67%. Aggressive schema distillation increases Token Efficiency by 132.22% but results in a 44.50-percentage-point decrease in Semantic Match. The findings demonstrate that token optimization cannot be treated as simple prompt shortening; it must be evaluated as a multi-objective migration problem balancing cost, syntactic validity, semantic preservation, and structural fidelity.
- Abstract(参考訳): LLMは、ソフトウェアモダナイゼーション、コード翻訳、データベースマイグレーションにますます利用されている。
しかし、LLMベースのOracle2PostgreSQLマイグレーションは、高いトークン消費、長いコンテキストの劣化、方言固有のセマンティックな違い、クエリ変換時のセマンティックドリフトのリスクによって制限され続けている。
大規模なOracle SQL/PL-SQLアーティファクト、スキーマ定義、手続き論理、モデルコンテキストへのマイグレーション命令を直接組み込むことで、コストが増加し、生成品質が低下する可能性がある。
本稿では LLM ベースの Oracle2PostgreSQL マイグレーションにおける制約付き変換問題としてトークン最適化を提案する。
ベースライン表現、コンテキストプルーニング、最小化、DSLベースのセマンティック圧縮、メタデータ拡張、コンテキストリファクタリング、スキーマ蒸留、適応ルーティング、ASTベースのミニ化、識別子マスキング、出力制約強制、ハイブリッド最適化の12のトークン最適化戦略を定式化し評価する。
戦略は、Valid Syntax Rate、Exact Match、Semantic Match、CodeBLEU、Token Efficiencyを使用して、10と100のOracle SQLクエリのサンプルで評価される。
その結果, セマンティックマッチは100クエリで89.75%, 最適化されていないベースラインでは89.80%となる。
適応ルーティングは、入力トークンを8.72%削減し、出力トークンを5.49%削減し、88.40%のセマンティックマッチを維持し、トークン効率を6.67%向上させる。
攻撃的スキーマ蒸留は、トーケン効率を132.22%向上させるが、セマンティックマッチの44.50ポイントの減少をもたらす。
その結果,トークンの最適化は単純な短縮処理として扱えないこと,多目的マイグレーション問題バランスコスト,構文的妥当性,意味的保存,構造的忠実性などとして評価する必要があることがわかった。
関連論文リスト
- Structure-Aware NL-to-SQL for SFC Provisioning via AST-Masking Empowered Language Models [12.197406910871623]
本稿では,構造を意識した微調整手法であるAST-Maskingを紹介する。
実験により、AST-Maskingは複数の言語モデル間でSQL生成精度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-01-24T04:06:57Z) - CORE-T: COherent REtrieval of Tables for Text-to-SQL [91.76918495375384]
CORE-Tはスケーラブルでトレーニング不要なフレームワークで、テーブルに目的のメタデータを付加し、軽量なテーブル互換キャッシュをプリコンプリートする。
バード、スパイダー、MMQAを越えて、CORE-Tはテーブル選択F1を最大22.7ポイント改善し、最大42%のテーブルを検索する。
論文 参考訳(メタデータ) (2026-01-19T14:51:23Z) - Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL [30.78817492504152]
HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。
我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。
提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
論文 参考訳(メタデータ) (2025-12-28T02:25:33Z) - Fine-tuned LLM-based Code Migration Framework [0.0]
本研究は,自動サンプリングマイグレーションの領域における研究成果と実験的検証について述べる。
提案手法は,従来のソフトウェア工学技術の優れた側面を活用するフレームワークとして,基本的には現れている。
論文 参考訳(メタデータ) (2025-12-15T16:42:51Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - ETM: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models [8.618945530676614]
Execution Accuracy (EXE) と Exact Set Matching Accuracy (ESM) は、パフォーマンスを誤って表現できる固有の制限に悩まされている。
我々は,構文的要素と意味的要素の両方を用いてクエリを比較することで,これらの問題を緩和する新しい指標ETM(Enhanced Tree Matching)を導入する。
ETM と ESM は23.0% と 28.9% の偽陽性と負の比率を産出でき、EMM はそれぞれ 0.3% と 2.7% に減少する。
論文 参考訳(メタデータ) (2024-07-10T02:20:19Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。