論文の概要: Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction
- arxiv url: http://arxiv.org/abs/2603.10047v1
- Date: Sun, 08 Mar 2026 19:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.589872
- Title: Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction
- Title(参考訳): てんかんの安定に向けて:工業用LLMの幻覚軽減のための工学的整合性手順
- Authors: Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon,
- Abstract要約: 大型言語モデル (LLM) における幻覚は、一貫性はあるが事実的に不正確であり、文脈的に矛盾する出力である。
モデル出力のばらつきを低減するための5つの迅速なエンジニアリング戦略を提示し、比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in large language models (LLMs) are outputs that are syntactically coherent but factually incorrect or contextually inconsistent. They are persistent obstacles in high-stakes industrial settings such as engineering design, enterprise resource planning, and IoT telemetry platforms. We present and compare five prompt engineering strategies intended to reduce the variance of model outputs and move toward repeatable, grounded results without modifying model weights or creating complex validation models. These methods include: (M1) Iterative Similarity Convergence, (M2) Decomposed Model-Agnostic Prompting, (M3) Single-Task Agent Specialization, (M4) Enhanced Data Registry, and (M5) Domain Glossary Injection. Each method is evaluated against an internal baseline using an LLM-as-Judge framework over 100 repeated runs per method (same fixed task prompt, stochastic decoding at $τ= 0.7$. Under this evaluation setup, M4 (Enhanced Data Registry) received ``Better'' verdicts in all 100 trials; M3 and M5 reached 80\% and 77\% respectively; M1 reached 75\%; and M2 was net negative at 34\% when compared to single shot prompting with a modern foundation model. We then developed enhanced version 2 (v2) implementations and assessed them on a 10-trial verification batch; M2 recovered from 34\% to 80\%, the largest gain among the four revised methods. We discuss how these strategies help overcome the non-deterministic nature of LLM results for industrial procedures, even when absolute correctness cannot be guaranteed. We provide pseudocode, verbatim prompts, and batch logs to support independent assessment.
- Abstract(参考訳): 大型言語モデル (LLM) における幻覚は、構文的に一貫性があるが、事実的に誤りまたは文脈的に矛盾した出力である。
エンジニアリング設計、エンタープライズリソース計画、IoTテレメトリプラットフォームといった高度な産業環境において、それらは永続的な障害である。
モデル重みを変更したり、複雑な検証モデルを作成することなく、モデル出力のばらつきを減らし、繰り返し、接地された結果に向かって進むことを目的とした5つの迅速なエンジニアリング戦略を提示し、比較する。
M1) 反復類似性収束、(M2) 分解モデル非依存プロンプト、(M3) シングルタスクエージェント特殊化、(M4) 強化データレジストリ、(M5) ドメイン用語注入。
LLM-as-Judgeフレームワークはメソッド毎に100回以上実行されている(固定タスクプロンプト、確率デコーディングは$τ= 0.7$)。
この評価設定の下で、M4 (Enhanced Data Registry) は、100回の試験で ``Better' の判定を受け、M3 と M5 はそれぞれ 80\% と 77\% に達し、M1 は 75\% に達し、M2 は、近代的な基礎モデルによる単発撮影と比較して、34\% で負の値を示した。
次に,拡張バージョン2 (v2) の実装を開発し,M2 は 34 % から 80 % まで回復した。
絶対的正当性を保証できない場合においても,これらの戦略が産業手続におけるLCM結果の非決定論的性質を克服する上でどのように役立つかについて議論する。
独立したアセスメントをサポートするために、擬似コード、動詞のプロンプト、バッチログを提供する。
関連論文リスト
- RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Boosting Theory-of-Mind Performance in Large Language Models via
Prompting [2.538209532048867]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。
ToM理解の改善における文脈内学習の有効性を検討した。
論文 参考訳(メタデータ) (2023-04-22T22:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。