論文の概要: Strengthening Human-Centric Chain-of-Thought Reasoning Integrity in LLMs via a Structured Prompt Framework
- arxiv url: http://arxiv.org/abs/2604.04852v1
- Date: Mon, 06 Apr 2026 16:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.293686
- Title: Strengthening Human-Centric Chain-of-Thought Reasoning Integrity in LLMs via a Structured Prompt Framework
- Title(参考訳): 構造的プロンプト・フレームワークによるLLMにおけるヒト中心鎖推論積分の強化
- Authors: Jiling Zhou, Aisvarya Adeseye, Seppo Virtanen, Antti Hakkala, Jouni Isoaho,
- Abstract要約: チェイン・オブ・ソート(CoT)プロンプトはLLMの推論能力を高めるために用いられている。
モデルスケーリングや微調整といった別のアプローチは、パフォーマンス向上に役立てることができる。
本研究では,CoT推論の整合性を高めるために,構造化されたプロンプトエンジニアリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.685068326729525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has been used to enhance the reasoning capability of LLMs. However, its reliability in security-sensitive analytical tasks remains insufficiently examined, particularly under structured human evaluation. Alternative approaches, such as model scaling and fine-tuning can be used to help improve performance. These methods are also often costly, computationally intensive, or difficult to audit. In contrast, prompt engineering provides a lightweight, transparent, and controllable mechanism for guiding LLM reasoning. This study proposes a structured prompt engineering framework designed to strengthen CoT reasoning integrity while improving security threat and attack detection reliability in local LLM deployments. The framework includes 16 factors grouped into four core dimensions: (1) Context and Scope Control, (2) Evidence Grounding and Traceability, (3) Reasoning Structure and Cognitive Control, and (4) Security-Specific Analytical Constraints. Rather than optimizing the wording of the prompt heuristically, the framework introduces explicit reasoning controls to mitigate hallucination and prevent reasoning drift, as well as strengthening interpretability in security-sensitive contexts. Using DDoS attack detection in SDN traffic as a case study, multiple model families were evaluated under structured and unstructured prompting conditions. Pareto frontier analysis and ablation experiments demonstrate consistent reasoning improvements (up to 40% in smaller models) and stable accuracy gains across scales. Human evaluation with strong inter-rater agreement (Cohen's k > 0.80) confirms robustness. The results establish structured prompting as an effective and practical approach for reliable and explainable AI-driven cybersecurity analysis.
- Abstract(参考訳): チェイン・オブ・ソート(CoT)プロンプトはLLMの推論能力を高めるために用いられている。
しかしながら、セキュリティに敏感な分析タスクにおける信頼性は、特に構造化された人的評価下では十分に検証されていない。
モデルスケーリングや微調整といった別のアプローチは、パフォーマンス向上に役立てることができる。
これらの手法は、しばしば費用がかかる、計算集約的である、あるいは監査が難しい。
対照的に、プロンプトエンジニアリングはLLM推論を導くための軽量で透明で制御可能なメカニズムを提供する。
本研究では,CoT推論の整合性を向上し,セキュリティの脅威と攻撃検出信頼性を向上する構造的プロンプトエンジニアリングフレームワークを提案する。
本フレームワークは,(1)コンテキストとスコープ制御,(2)証拠のグラウンドとトレーサビリティ,(3)推論構造と認知制御,(4)セキュリティと分析の制約の4つに分類された16の因子を含む。
このフレームワークは、迅速なヒューリスティックな言葉を最適化するのではなく、幻覚を緩和し、推論の漂流を防ぐための明確な推論制御を導入し、セキュリティに敏感な文脈における解釈可能性を強化する。
SDNトラフィックにおけるDDoS攻撃検出をケーススタディとして、構造的および非構造的プロンプト条件下で複数のモデルファミリーを評価した。
パレートフロンティア解析とアブレーション実験は、一貫した推論の改善(より小さなモデルでは最大40%)と、スケールにわたって安定した精度向上を示す。
強い層間合意(コーエンの k > 0.80)による人的評価は、堅牢性を確認する。
結果は、信頼できる説明可能なAI駆動型サイバーセキュリティ分析のための効果的で実践的なアプローチとして構造化プロンプトを確立した。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - TRUE: A Trustworthy Unified Explanation Framework for Large Language Model Reasoning [0.2538209532048867]
大規模言語モデル(LLM)は複雑な推論タスクにおいて強力な能力を示してきたが、その意思決定プロセスは解釈が難しいままである。
本稿では,実行可能推論検証,実現可能な領域指向非巡回グラフ(DAG)モデリング,因果故障モード解析を統合したTrustworthy Unified Explanation Framework(TRUE)を提案する。
論文 参考訳(メタデータ) (2026-02-21T17:00:54Z) - Autonomous Chain-of-Thought Distillation for Graph-Based Fraud Detection [73.9189065770752]
テキスト分散グラフ(TAG)上のグラフベースの不正検出には、リッチテキストセマンティクスとリレーショナル依存関係を共同でモデル化する必要がある。
我々は,自律型グラフ認識チェーン(CoT)推論とスケーラブルなLLM-GNN協調学習を通じて,TAGに基づく不正検出を促進する統一フレームワークであるFraudCoTを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:12:12Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic [0.12499537119440243]
本稿では,段階的信頼度を時間的信号としてモデル化し,STL(Signal Temporal Logic)を用いて評価する構造化フレームワークを提案する。
特に,定型的なSTLに基づく制約を定義し,望ましい時間特性と,構造化された解釈可能な信頼度推定として機能するスコアを求める。
本手法はキャリブレーションの指標を常に改善し,従来の信頼度集計やポストホックキャリブレーションよりも信頼性の高い不確実性推定を提供する。
論文 参考訳(メタデータ) (2025-06-09T21:21:12Z) - SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability Analysis [39.229080120880774]
SV-TrustEval-Cは,C言語で記述されたコードの脆弱性解析のための大規模言語モデルの能力を評価するためのベンチマークである。
以上の結果から,現在のLLMは複雑なコード関係を理解するのに十分ではないことが示され,その脆弱性分析はロバストな論理的推論よりもパターンマッチングに頼っている。
論文 参考訳(メタデータ) (2025-05-27T02:16:27Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。