論文の概要: VeriTrans: Fine-Tuned LLM-Assisted NL-to-PL Translation via a Deterministic Neuro-Symbolic Pipeline
- arxiv url: http://arxiv.org/abs/2604.10341v1
- Date: Sat, 11 Apr 2026 19:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.965938
- Title: VeriTrans: Fine-Tuned LLM-Assisted NL-to-PL Translation via a Deterministic Neuro-Symbolic Pipeline
- Title(参考訳): VeriTrans: 決定論的ニューロシンボリックパイプラインによる微調整LDMによるNL-to-PL翻訳
- Authors: Xuan Liu, Dheeraj Kodakandla, Kushagra Srivastva, Mahfuza Farooque,
- Abstract要約: textbfVeriTransは、自然言語要求をソルバ対応論理にコンパイルする信頼性第一のMLシステムである。
VeriTransは、SAT/UNSATの94.46%の精度と87.73%の中央値のラウンドトリップを達成している。
- 参考スコア(独自算出の注目度): 3.46461848167961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \textbf{VeriTrans} is a reliability-first ML system that compiles natural-language requirements into solver-ready logic with validator-gated reliability. The pipeline integrates an instruction-tuned NL$\!\to\!$PL translator, round-trip reconstruction (PL$\!\to\!$NL) used as a high-precision acceptance gate, and canonical PL$\!\to\!$CNF compilation, all executed via fixed API configuration (temperature$=0$; fine-tuning runs use seed$=42$) and per-item artifact logging (prompts, outputs, hashes) to support auditability and replay-driven debugging. On \textbf{SatBench} (2{,}100 specifications), VeriTrans achieves 94.46\% SAT/UNSAT correctness and 87.73\% median round-trip similarity. Compact fine-tuning on 100--150 curated examples improves fidelity by about 1--1.5\,pp without increasing latency (mean 25.8\,s/spec on our 201-spec runtime subset). A thresholded acceptance policy on the round-trip score exposes a reliability--coverage knob: at $τ{=}75$, roughly 68\% of items are retained with $\sim$94\% correctness on the accepted set. Validator overhead contributes $<15\%$ of end-to-end runtime, and all prompts/responses and timing metadata are logged to enable replay-driven debugging and regression testing. By separating learned translation from symbolic verification and enforcing deterministic, validator-gated acceptance, VeriTrans turns NL$\!\to\!$logic front-ends into auditable, reproducible components for reliability-critical workflows.
- Abstract(参考訳): \textbf{VeriTrans} は信頼性第一のMLシステムで、自然言語の要求をバリデーション付き信頼性でソルバ対応論理にコンパイルする。
パイプラインは命令調整されたNL$\!
やれ!
$PL Translator, round-trip reconstruction (PL$\!
やれ!
高精度の受け入れゲートとして使用され、標準PL$\!
やれ!
CNFコンパイルは、すべて固定API設定(温度$=0$; 微調整実行は、sped$=42$)とper-itemアーティファクトロギング(prompts, outputs, hashes)によって実行され、監査性とリプレイ駆動デバッグをサポートする。
textbf{SatBench} (2{,}100 仕様)では、VeriTrans は 94.46 % SAT/UNSAT の正しさと 87.73 % のラウンドトリップ類似性を達成している。
100-150キュレートされた例のコンパクトな微調整は、レイテンシを増大させることなく、約1-1.5\,ppの忠実度を改善する(201-specランタイムサブセットの25.8\,s/specの平均)。
ラウンドトリップスコアに対するしきい値の受け入れポリシは、信頼性の高いカバレッジノブを露呈する:$τ{=}75$,約68\%のアイテムは、受け入れたセットに対して$\sim$94\%の正確さで保持される。
Validatorのオーバーヘッドは、エンドツーエンドランタイムの$<15\%$に貢献し、すべてのプロンプト/レスポンスとタイミングメタデータがログされ、リプレイ駆動のデバッグと回帰テストを可能にする。
学習した翻訳を記号的検証から切り離し、決定論的、バリデータ付き受け入れを強制することにより、VeriTransはNL$\!
やれ!
信頼性クリティカルなワークフローのための監査可能な再現可能なコンポーネントに、$logicのフロントエンドを組み込む。
関連論文リスト
- PCodeTrans: Translate Decompiled Pseudocode to Compilable and Executable Equivalent [8.576619291429969]
PCodeTransは、逆コンパイル、再コンパイル、厳密な関数レベルの動的検証のギャップを埋める。
99.55%と99.89%のテスト検証された動作一貫性とともに、ストリップされていないバイナリ上で100%の関数レベルのコンパイルが可能となる。
論文 参考訳(メタデータ) (2026-03-16T05:54:24Z) - CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation [71.42965967582147]
既存のアプローチは、Large Language Models (LLM) を用いたテストケースの合成を試みる
包括的なテストケース構築のために、textbfFeedback-Bench Iterative Framework$を提案します。
私たちのデータセットは、平均的真正率(TPR)が89.37%、真負率(TNR)が90.89%で、CodeContestsとCodeContests+をそれぞれ4.32%、9.37%で大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-20T07:32:44Z) - Nondeterminism-Aware Optimistic Verification for Floating-Point Neural Networks [11.159101812934503]
不均一加速器上での浮動小数点実行のための非決定論的アウェア最適検証プロトコル
NAOをPyTorch互換ランタイムとして実装し、現在Horeskyテストネット上にデプロイされているコントラクト層を運用しています。
論文 参考訳(メタデータ) (2025-10-15T21:10:39Z) - Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning [0.0]
本稿では,各検索エッジに自由形式の自然言語ディレクティブを付加するラベルラタオーバーレイであるNature Language Edge Labelling (NLEL)を紹介する。
NLEL は CoT/ToT を厳密に一般化し、ラベル付きバンドルの下でのトップ$k$選択の時空単調性を証明し、制御ベクトル歪みによりセレクタ不足を限定する。
論文 参考訳(メタデータ) (2025-10-06T14:00:02Z) - Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP [0.0]
ツール・ユース・エージェントのための最優先ルータが、よい葉を欠くことなく探索を止められるようになれば、私たちは対処します。
本稿では,各ノードのキーを,葉の摂動を実現する指数関数レースに結合するランワイズ証明書を提案する。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
論文 参考訳(メタデータ) (2025-09-09T01:25:09Z) - ProofWala: Multilingual Proof Data Synthesis and Theorem-Proving [53.67926215943612]
$rm P Small ROOFW Small ALA$は、ニューラル定理プローサと2つの確立された対話的証明アシスタント(ITP)間の相互作用を可能にする
私たちは、$rm P Small ROOFWsmall ALA$生成のCoqとLeanのデータの組み合わせでトレーニングされたモデルが、標準のprov-at-k$メトリック上で、Lean-onlyとCoq-onlyのモデルを上回っていることを示します。
論文 参考訳(メタデータ) (2025-02-07T05:35:46Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。