論文の概要: Box Maze: A Process-Control Architecture for Reliable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2603.19182v1
- Date: Thu, 19 Mar 2026 17:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.304204
- Title: Box Maze: A Process-Control Architecture for Reliable LLM Reasoning
- Title(参考訳): Box Maze: 信頼性の高いLLM推論のためのプロセス制御アーキテクチャ
- Authors: Zou Qiang,
- Abstract要約: 本稿では,大規模言語モデルをメモリグラウンディング,構造化推論,境界強制という3つの明示的なレイヤに分解する概念的プロセス制御アーキテクチャを提案する。
予備的な結果から,プロセスレベルの制御は,大規模言語モデル推論における信頼性向上に有望な方向を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate strong generative capabilities but remain vulnerable to hallucination and unreliable reasoning under adversarial prompting. Existing safety approaches -- such as reinforcement learning from human feedback (RLHF) and output filtering -- primarily operate at the behavioral level and may lack explicit architectural mechanisms for enforcing reasoning process integrity. This paper proposes the Box Maze framework, a conceptual process-control architecture that decomposes LLM reasoning into three explicit layers: memory grounding, structured inference, and boundary enforcement. We introduce preliminary simulation-based evaluation involving progressive boundary erosion scenarios across multiple heterogeneous LLM systems (DeepSeek-V3, Doubao, Qwen). Results from n=50 adversarial scenarios suggest that explicit cognitive control layers may improve consistency in boundary maintenance, with architectural constraints reducing boundary failure rates from approximately 40% (baseline RLHF) to below 1% under adversarial conditions. While current validation is simulation-based, these preliminary results indicate that process-level control may offer a promising direction for improving reliability in large language model reasoning.
- Abstract(参考訳): 大型言語モデル (LLM) は強力な生成能力を示すが、幻覚や不信頼な推論に弱いままである。
人間のフィードバックからの強化学習(RLHF)や出力フィルタリングといった既存の安全アプローチは、主に行動レベルで動作し、推論プロセスの整合性を強制する明確なアーキテクチャメカニズムが欠如している可能性がある。
本稿では,LLM推論をメモリグラウンド,構造化推論,境界強制という3つの明示的なレイヤに分解する概念的プロセス制御アーキテクチャであるBox Mazeフレームワークを提案する。
本稿では,複数の異種LCMシステム(DeepSeek-V3,Doubao,Qwen)における進行境界侵食シナリオを含む予備シミュレーションに基づく評価を紹介する。
n=50の対立シナリオの結果、明示的な認知制御層は境界維持の整合性を向上し、アーキテクチャ上の制約により境界破壊率が約40%(ベースラインRLHF)から1%以下に低下する可能性が示唆された。
現在の検証はシミュレーションに基づくものであるが、これらの予備的な結果は、プロセスレベルの制御が、大規模言語モデル推論における信頼性向上に有望な方向性をもたらすことを示唆している。
関連論文リスト
- FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。