論文の概要: Logic Sketch Prompting (LSP): A Deterministic and Interpretable Prompting Method
- arxiv url: http://arxiv.org/abs/2512.22258v1
- Date: Wed, 24 Dec 2025 09:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.941262
- Title: Logic Sketch Prompting (LSP): A Deterministic and Interpretable Prompting Method
- Title(参考訳): 論理スケッチ・プロンプティング(LSP):決定論的かつ解釈可能なプロンプティング法
- Authors: Satvik Tripathi,
- Abstract要約: Logic Sketch Prompting (LSP)は、型付き変数、決定論的条件評価器、ルールベースのバリデータを導入した軽量なプロンプトフレームワークである。
LSPを、ゼロショットプロンプト、チェーン思考プロンプト、簡潔な3つのオープンウェイトモデルに対してベンチマークする。
これらの結果から,LSPは性能を犠牲にすることなく決定性,解釈可能性,一貫性を向上し,臨床,規制,安全決定支援システムでの使用を支援することが示唆された。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at natural language reasoning but remain unreliable on tasks requiring strict rule adherence, determinism, and auditability. Logic Sketch Prompting (LSP) is a lightweight prompting framework that introduces typed variables, deterministic condition evaluators, and a rule based validator that produces traceable and repeatable outputs. Using two pharmacologic logic compliance tasks, we benchmark LSP against zero shot prompting, chain of thought prompting, and concise prompting across three open weight models: Gemma 2, Mistral, and Llama 3. Across both tasks and all models, LSP consistently achieves the highest accuracy (0.83 to 0.89) and F1 score (0.83 to 0.89), substantially outperforming zero shot prompting (0.24 to 0.60), concise prompts (0.16 to 0.30), and chain of thought prompting (0.56 to 0.75). McNemar tests show statistically significant gains for LSP across nearly all comparisons (p < 0.01). These results demonstrate that LSP improves determinism, interpretability, and consistency without sacrificing performance, supporting its use in clinical, regulated, and safety critical decision support systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語推論において優れているが、厳格な規則順守、決定論、監査性を必要とするタスクには信頼できない。
Logic Sketch Prompting (LSP)は、型付き変数、決定論的条件評価器、およびトレーサブルかつ繰り返し可能な出力を生成するルールベースのバリデータを導入した軽量なプロンプトフレームワークである。
2つの薬理学的論理コンプライアンスタスクを用いて、ゼロショットプロンプト、思考プロンプト、簡潔な3つのオープンウェイトモデル(Gemma 2、Mistral、Llama 3)に対してLSPをベンチマークする。
タスクと全てのモデルにおいて、LSPは最高精度(0.83から0.89)とF1スコア(0.83から0.89)を一貫して達成し、ゼロショットプロンプト(0.24から0.60)、簡潔プロンプト(0.16から0.30)、思考プロンプト(0.56から0.75)を大幅に上回っている。
マクネマール試験では、ほぼ全ての比較(p < 0.01)でLSPが統計的に有意な上昇を示した。
これらの結果から,LSPは性能を犠牲にすることなく決定性,解釈可能性,一貫性を向上し,臨床,規制,安全決定支援システムでの使用を支援することが示唆された。
関連論文リスト
- RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。
パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文 参考訳(メタデータ) (2025-10-26T21:58:33Z) - From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15 [0.41998444721319217]
大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
論文 参考訳(メタデータ) (2025-10-18T02:11:50Z) - HALT-RAG: A Task-Adaptable Framework for Hallucination Detection with Calibrated NLI Ensembles and Abstention [0.0]
HALT-RAGは、Retrieval-Augmented Generationパイプラインの出力における幻覚を特定するために設計されたポストホック検証システムである。
我々のフレキシブルでタスク適応性のあるフレームワークは、2つのフリーズ・オフ・ザ・シェルフ自然言語推論(NLI)モデルと軽量語彙信号のアンサンブルから導かれる普遍的な特徴セットを使用する。
HALT-RAGは軽量・タスク適応型・高精度制約型決定ポリシーと組み合わせることで,要約,QA,対話における強いOOF F1スコア0.7756,0.9786,0.7391を達成する。
論文 参考訳(メタデータ) (2025-09-09T07:58:46Z) - Non-Determinism of "Deterministic" LLM Settings [7.008076013373744]
本研究では,10ランにまたがる8つの共通タスクに適用した場合に決定論的に設定された5つのLSMにおける非決定性について検討する。
自然に発生する実行に最大15%の精度のばらつきがあり、最高のパフォーマンスと最悪のパフォーマンスのギャップがある。
本研究では, 決定論の定量化に重点を置いた指標, Nにおける合意率のトータルは生出力上でのTARr@N, 解析された回答の総合意率のTARa@Nを紹介する。
論文 参考訳(メタデータ) (2024-08-06T16:43:35Z) - Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。
LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。
我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。