論文の概要: Reducing Hallucination in Enterprise AI Workflows via Hybrid Utility Minimum Bayes Risk (HUMBR)
- arxiv url: http://arxiv.org/abs/2604.11141v1
- Date: Mon, 13 Apr 2026 07:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.413815
- Title: Reducing Hallucination in Enterprise AI Workflows via Hybrid Utility Minimum Bayes Risk (HUMBR)
- Title(参考訳): ハイブリッドユーティリティ最小ベイズリスク(HUMBR)によるエンタープライズAIワークフローの幻覚の低減
- Authors: Chenhao Fang, Jordi Mola, Mark Harman, Jason Nawrocki, Vaibhav Shrivastava, Yue Cheng, Jay Minesh Shah, Katayoun Zand, Mansi Tripathi, Arya Pudota, Matthew Becker, Hervé Robert, Abhishek Gulati,
- Abstract要約: 最小ベイズリスク問題として幻覚緩和をフレーミングすることで、このリスクを劇的に低減できることを示す。
具体的には,意味的埋め込み類似性を語彙的精度で合成するHybrid Utility MBRフレームワークを導入する。
パイプラインの提案の81%は人為的な真実よりも好まれており、重大なリコールの失敗は事実上排除された。
- 参考スコア(独自算出の注目度): 5.55032410419827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although LLMs drive automation, it is critical to ensure immense consideration for high-stakes enterprise workflows such as those involving legal matters, risk management, and privacy compliance. For Meta, and other organizations like ours, a single hallucinated clause in such high stakes workflows risks material consequences. We show that by framing hallucination mitigation as a Minimum Bayes Risk (MBR) problem, we can dramatically reduce this risk. Specifically, we introduce a Hybrid Utility MBR (HUMBR) framework that synthesizes semantic embedding similarity with lexical precision to identify consensus without ground-truth references, for which we derive rigorous error bounds. We complement this theoretical analysis with a comprehensive empirical evaluation on widely-used public benchmark suites (TruthfulQA and LegalBench) and also real world data from Meta production deployment. The results from our empirical study show that MBR significantly outperforms standard Universal Self-Consistency. Notably, 81% of the pipeline's suggestions were preferred over human-crafted ground truth, and critical recall failures were virtually eliminated.
- Abstract(参考訳): LLMは自動化を推進しているが,法的事項やリスク管理,プライバシコンプライアンスなど,高度なエンタープライズワークフローを十分に考慮しておくことが重要である。
Metaや私たちのような他の組織にとって、そのような高い利害関係のワークフローにある1つの幻覚的条項は、重大な結果をもたらす。
最小ベイズリスク(MBR)問題として幻覚を緩和することで、このリスクを劇的に低減できることを示す。
具体的には,Hybrid Utility MBR(Hybrid Utility MBR, HUMBR)フレームワークを提案する。
本稿では,この理論解析を,広く使用されている公開ベンチマークスイート(TruthfulQA と LegalBench)と,Meta の製品展開から得られた実世界データに関する総合的な実証的評価で補完する。
実証実験の結果,MBRは標準の普遍的自己整合性よりも有意に優れていた。
特に、パイプラインの提案の81%は人造の地上の真実よりも好まれ、重大なリコールの失敗は事実上排除された。
関連論文リスト
- The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents [30.378925170216835]
大言語モデル(LLM)エージェントの自己複製リスクは、客観的なミスアライメントによって増大している。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:49:50Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Nine Ways to Break Copyright Law and Why Our LLM Won't: A Fair Use Aligned Generation Framework [7.941114118462577]
大規模言語モデル (LLM) は、保護されたコンテンツを冗長に再現したり、変換に不十分な修正を加えて著作権侵害を犯すのが一般的である。
我々は、LLM出力とフェアユース・ドクトリンとの整合性を明示的に設計した法的基盤の枠組みを開発する。
FuA-LLMは最先端のアプローチと比較して、問題のある出力(最大20%)を大幅に削減する。
論文 参考訳(メタデータ) (2025-05-25T12:23:26Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。