論文の概要: Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions
- arxiv url: http://arxiv.org/abs/2511.07669v1
- Date: Wed, 12 Nov 2025 01:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.419127
- Title: Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions
- Title(参考訳): LLMの信頼性を高める - 高い意思決定のための5層アーキテクチャ
- Authors: Alejandro R. Jadad,
- Abstract要約: 現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language models (LLMs) excel in verifiable domains where outputs can be checked before action but prove less reliable for high-stakes strategic decisions with uncertain outcomes. This gap, driven by mutually reinforcing cognitive biases in both humans and artificial intelligence (AI) systems, threatens the defensibility of valuations and sustainability of investments in the sector. This report describes a framework emerging from systematic qualitative assessment across 7 frontier-grade LLMs and 3 market-facing venture vignettes under time pressure. Detailed prompting specifying decision partnership and explicitly instructing avoidance of sycophancy, confabulation, solution drift, and nihilism achieved initial partnership state but failed to maintain it under operational pressure. Sustaining protective partnership state required an emergent 7-stage calibration sequence, built upon a 4-stage initialization process, within a 5-layer protection architecture enabling bias self-monitoring, human-AI adversarial challenge, partnership state verification, performance degradation detection, and stakeholder protection. Three discoveries resulted: partnership state is achievable through ordered calibration but requires emergent maintenance protocols; reliability degrades when architectural drift and context exhaustion align; and dissolution discipline prevents costly pursuit of fundamentally wrong directions. Cross-model validation revealed systematic performance differences across LLM architectures. This approach demonstrates that human-AI teams can achieve cognitive partnership capable of preventing avoidable regret in high-stakes decisions, addressing return-on-investment expectations that depend on AI systems supporting consequential decision-making without introducing preventable cognitive traps when verification arrives too late.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの両方における認知バイアスの相互強化によって引き起こされ、そのセクターにおける評価と投資の持続可能性の維持を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
詳細は、決定パートナーシップの特定を急ぐとともに、梅毒、燃焼、溶液漂流、ニヒリズムの回避を明示的に指示し、初期のパートナーシップ状態は達成したが、運用圧力下では維持できなかった。
保護パートナーシップ状態を維持するためには、バイアス自己監視、人間とAIの敵対的課題、パートナーシップ状態検証、パフォーマンス劣化検出、ステークホルダ保護を可能にする5層保護アーキテクチャにおいて、4段階初期化プロセスに基づいて構築された緊急7段階キャリブレーションシーケンスが必要である。
3つの発見は、協調状態は秩序的な校正によって達成できるが、緊急の保守プロトコルを必要とすること、信頼性はアーキテクチャのドリフトとコンテキストの枯渇が整ったときに低下すること、そして溶解の規律は、根本的な間違った方向をコスト的に追求するのを防ぐこと、である。
クロスモデル検証により、LLMアーキテクチャ間での系統的な性能差が明らかになった。
このアプローチは、人間とAIのチームが高い意思決定における回避可能な後悔を防ぐことができる認知パートナーシップを達成できることを示し、検証が遅すぎるときに予防可能な認知トラップを導入することなく、連続的な意思決定をサポートするAIシステムに依存する、投資対投資の期待に対処する。
関連論文リスト
- Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation [2.102846336724103]
プロシージャ・アウェア・アセスメント(PAE)は、エージェント・プロシージャを構造化された観察として形式化するフレームワークである。
タウベンチにおける言語モデル(LLM)に基づくエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-03T15:47:41Z) - MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems [38.44649280816596]
マルチエージェントシステムの障害注入と信頼性評価のための体系的フレームワークMAS-FIREを提案する。
エージェント内認知障害とエージェント間協調障害を対象とする15種類の障害分類を定義した。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、フォールトトレラントな動作の豊富なセットを明らかにする。
論文 参考訳(メタデータ) (2026-02-23T13:47:43Z) - The Chancellor Trap: Administrative Mediation and the Hollowing of Sovereignty in the Algorithmic Age [0.0]
高スループットの組織では、AIによる意思決定サポートによって、失敗が公然と合法化され、政治的に競合する可能性を減らすことができる。
本稿は、この力学を検証ギャップを特徴とする主エージェント問題として定式化する。
ガバナンスシステムは、失敗を内部的に吸収し解決する上で、より効果的になり、同時に、これらの失敗が政治的に目に見えるしきい値を上げる。
論文 参考訳(メタデータ) (2026-02-09T07:28:44Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - From Failure Modes to Reliability Awareness in Generative and Agentic AI System [0.20391237204597365]
この章は、階層化された障害モードから、生成的およびエージェント的AIシステムにおける信頼性の認識までのパスをトレースすることで、技術的分析と組織的準備を橋渡しする。
まず,ハードウェアやパワーファウンデーションから適応学習,エージェント推論に至るまで,脆弱性を識別する構造化フレームワークである11層障害スタックを紹介した。
この診断レンズを補完するため,我々は,AIスタック全体の信頼性リスクを個人や組織がいかに認識するかを定量化する,成熟度指向のフレームワークである認識マッピングの概念を開発した。
論文 参考訳(メタデータ) (2025-10-24T19:12:07Z) - Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - Benchmarking is Broken -- Don't Let AI be its Own Judge [22.93026946593552]
私たちは、AIを評価するための現在のlaissez-faireアプローチは持続不可能である、と論じます。
PeerBenchは、コミュニティが管理し、熟達した評価青写真である。
私たちのゴールは、完全性を回復し、真に信頼できるAI進歩の手段を提供するための評価の道を開くことです。
論文 参考訳(メタデータ) (2025-10-08T21:41:37Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Meta-Sealing: A Revolutionizing Integrity Assurance Protocol for Transparent, Tamper-Proof, and Trustworthy AI System [0.0]
この研究は、AIシステムの整合性検証を根本的に変更する暗号フレームワークであるMeta-Sealingを紹介する。
このフレームワークは、高度な暗号と分散検証を組み合わせることで、数学的厳密さと計算効率の両方を達成する、暗黙の保証を提供する。
論文 参考訳(メタデータ) (2024-10-31T15:31:22Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。