論文の概要: FASTRIC: Prompt Specification Language for Verifiable LLM Interactions
- arxiv url: http://arxiv.org/abs/2512.18940v1
- Date: Mon, 22 Dec 2025 01:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.565251
- Title: FASTRIC: Prompt Specification Language for Verifiable LLM Interactions
- Title(参考訳): FASTRIC: 検証LLMインタラクションのためのプロンプト仕様言語
- Authors: Wen-Long Jin,
- Abstract要約: 大規模言語モデル(LLM)は複雑なマルチターンインタラクションプロトコルを実行するが、デザイナの意図に対する実行を検証するための正式な仕様がない。
本稿では、自然言語のプロンプトで暗黙的な有限状態機械(FSM)を明示するプロンプト仕様言語であるFASTRICを紹介する。
- 参考スコア(独自算出の注目度): 3.8073142980732997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) execute complex multi-turn interaction protocols but lack formal specifications to verify execution against designer intent. We introduce FASTRIC, a Prompt Specification Language that makes implicit Finite State Machines (FSMs) explicit in natural language prompts, enabling conformance verification through execution trace analysis. The LLM serves as intelligent execution agent: interpreting designer-encoded FSMs to execute specified behavioral roles. Unlike symbolic specification languages requiring parsers and compilers, FASTRIC leverages LLMs as unified infrastructure-simultaneously parser, interpreter, runtime environment, and development assistant. FASTRIC guides designers to articulate seven FSM elements (Final States, Agents, States, Triggers, Roles, Initial State, Constraints) structuring multi-turn interactions. Specification formality-ranging from implicit descriptions that frontier models infer to explicit step-by-step instructions for weaker models-serves as a design parameter. We introduce procedural conformance as verification metric measuring execution adherence to FSM specifications. Testing a 3-state kindergarten tutoring FSM across four formality levels and three model scales (14.7B, 685B, 1T+ parameters) reveals optimal specification formality is a function of model capacity. DeepSeek-V3.2 (685B) achieves perfect conformance (1.00) at L2-L4; ChatGPT-5 (~1T) peaks at L3 (0.90) before collapsing at L4 (0.39); Phi4 (14.7B) shows no stable optimum with high variance (SD=0.16-0.36). These findings reveal model-specific formality ranges-"Goldilocks zones"-where specifications provide sufficient structure without over-constraint, establishing Prompt Specification Engineering for creating verifiable interaction protocols, transforming multi-turn interaction design from heuristic art to systematic engineering with measurable procedural guarantees.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑なマルチターンインタラクションプロトコルを実行するが、デザイナの意図に対する実行を検証するための正式な仕様がない。
本稿では,自然言語のプロンプトで暗黙的な有限状態マシン(FSM)を明示するプロンプト仕様言語であるFASTRICを紹介し,実行トレース分析による適合性検証を可能にする。
LLMはインテリジェントな実行エージェントとして機能し、デザイナーエンコードされたFSMを解釈して特定の行動的役割を実行する。
パーサとコンパイラを必要とするシンボリック仕様言語とは異なり、FASTRICはLLMを統一されたインフラストラクチャ・パーサ、インタプリタ、ランタイム環境、開発アシスタントとして活用している。
FASTRICはデザイナーに、FSMの7つの要素(Final States, Agents, States, Triggers, Roles, Initial State, Constraints)を多ターンインタラクションを構築するよう指示する。
仕様形式は、フロンティアモデルが設計パラメータとして弱いモデルサーブに対して明示的なステップバイステップ命令を推論するという暗黙の記述から導かれる。
本稿では、FSM仕様に対する実行の付着度を計測する検証基準として手続き整合性を導入する。
FSMを4つの形式レベルと3つのモデルスケール(14.7B, 685B, 1T+パラメータ)でテストすると、最適な仕様形式はモデルキャパシティの関数であることが分かる。
DeepSeek-V3.2 (685B) は L2-L4 で完全整合 (1.00) を達成する; ChatGPT-5 (~1T) ピークは L3 (0.90) で、L4 (0.39) で崩壊する; Phi4 (14.7B) は高い分散を持つ安定な最適値(SD=0.16-0.36)を示さない。
これらの結果から,モデル固有の形式的範囲である"Goldilocks zones"が,過剰な制約を伴わずに十分な構造を提供し,検証可能なインタラクションプロトコルを作成するためのPrompt Specification Engineeringを確立し,ヒューリスティックなアートから,測定可能な手続き保証付きで多ターンインタラクション設計を体系的なエンジニアリングに変換する。
関連論文リスト
- Bridging Natural Language and Formal Specification--Automated Translation of Software Requirements to LTL via Hierarchical Semantics Decomposition Using LLMs [10.958536923155101]
Req2LTLは、NLとLinear Temporal Logicをブリッジするモジュラーフレームワークである。
実世界の航空要求に対して88.4%のセマンティック精度と100%の構文的正確性を達成する。
論文 参考訳(メタデータ) (2025-12-19T08:25:54Z) - Zero-shot 3D Map Generation with LLM Agents: A Dual-Agent Architecture for Procedural Content Generation [8.398818816613806]
ゼロショットPCGパラメータ設定にLLMエージェントを利用する学習自由アーキテクチャを提案する。
我々のシステムはアクターエージェントとCriticエージェントをペアリングし、ツールパラメータを自律的に理由づける反復ワークフローを可能にする。
論文 参考訳(メタデータ) (2025-12-11T10:22:02Z) - Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior across Languages [61.18573330164572]
システムプロンプトは、推論時に大きな言語モデル(LLM)を条件付けするための軽量で強力なメカニズムを提供する。
本稿では, 異なるシステムが, 正確な, 頑健な言語間行動に対して, ステアモデルをどのように促すかを包括的に検討する。
論文 参考訳(メタデータ) (2025-12-02T14:54:54Z) - Synthesizing Precise Protocol Specs from Natural Language for Effective Test Generation [42.582977261473324]
AutoSPECは平均92.8%のクライアントと80.2%のサーバメッセージタイプを回復し、81.5%のメッセージ受信を現実世界のシステムで行う。
プロトタイプは, 広く用いられている5種類のアプローチの実現可能性を示した。
インターネットベースのプロトコル。
論文 参考訳(メタデータ) (2025-11-22T08:39:52Z) - PAT-Agent: Autoformalization for Model Checking [17.082027022913998]
PAT-Agentは自然言語の自動形式化と形式モデル修復のためのエンドツーエンドフレームワークである。
これは、大きな言語モデルの生成能力と形式的検証の厳密さを組み合わせたものである。
論文 参考訳(メタデータ) (2025-09-28T06:32:14Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。