論文の概要: The Architecture of Errors: From Universal Impossibility to Patch-Local LLM Reliability
- arxiv url: http://arxiv.org/abs/2605.30628v1
- Date: Thu, 28 May 2026 22:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.270341
- Title: The Architecture of Errors: From Universal Impossibility to Patch-Local LLM Reliability
- Title(参考訳): エラーのアーキテクチャ:Universal Impossibility から Patch-Local LLM Reliability へ
- Authors: Mikhail L. Arbuzov, Lee Mosbacker, Sisong Bei, Ziwei Dong, Dmitri Kalaev, Alexey Shvets,
- Abstract要約: デプロイされたシステムは、宇宙全体にわたって動作しないことを示す。
このようなパッチの中では、失敗はスパースで反復的で、小さな反復するカタログに集中しているという実証的な証拠がある。
この遷移を2つの命題と1つの結論で定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal LLM reliability is not a finite-library problem: across all possible tasks, tools, schemas, knowledge sources, and evaluator expectations, new intervention-distinguishable failure modes can appear without bound, so no finite intervention dictionary can guarantee bounded residual error for every such mode. But deployed systems do not operate over the whole universe. They operate inside operationally bounded patches (legal review, medical RAG, code repair, customer-support agents, contract extraction) with recurring tasks, schemas, tools, and evaluator expectations. Within such patches, empirical evidence suggests failures are sparse, repetitive, and concentrated in a small recurring catalogue, so reliability becomes a local catalogue-discovery and intervention-coverage problem rather than an exponential token-length problem. We formalize this transition with two propositions and one corollary. Proposition 1 is the worst-case-mode-wise negative result: no finite intervention dictionary covers every distinguishable failure mode of an unbounded domain. Corollary 1 is the inverse-discovery implication: the logarithmic upper bound on mode discovery cannot accommodate linearly more distinct tail modes without exponentially more observed hard-failure events. Proposition 2 is the positive patch-local result: under log active-mode exposure and head-heavy coverage, a sufficient per-hard-decision intervention budget grows polylogarithmically in sequence length and becomes domain-constant once the patch catalogue saturates. The framework relocates rather than dissolves long-context difficulty: where the number of hard decisions itself grows with task length, reliability remains hard; the contribution is to identify the on-axis intervention rather than to make those regimes easy.
- Abstract(参考訳): あらゆる可能なタスク、ツール、スキーマ、知識ソース、評価器の期待において、新しい干渉区別可能な障害モードはバウンダリなしで現れるため、有限介入辞書はそのようなすべてのモードに対して有界残差を保証できない。
しかし、デプロイされたシステムは宇宙全体にわたって動作しない。
運用上のバインドされたパッチ(法的レビュー、医療RAG、コード修復、カスタマーサポートエージェント、コントラクト抽出)内で、繰り返し実行されるタスク、スキーマ、ツール、評価対象の期待に基づいて運用する。
このようなパッチの中では、失敗はスパースで反復的で、小さな繰り返しカタログに集中していることを実証的な証拠として示しているため、信頼性は指数的トークン長問題ではなく、局所的なカタログ発見および介入被覆問題となる。
この遷移を2つの命題と1つの結論で定式化する。
命題1は最悪のケースモードの負の結果であり、有限介入辞書は、非有界領域のすべての区別可能な障害モードをカバーしていない。
対数的上界のモード発見は、指数関数的に観察されるハード・フェイルな事象がなければ、線形的により異なるテールモードに対応できない。
ログアクティブモード露光とヘッドヘビーカバレッジの下では、十分なハード-決定介入予算は、シーケンス長で多対数的に増加し、パッチカタログが飽和するとドメイン・コンスタントになる。
ハードな決定の数がタスクの長さとともに増加すると、信頼性は依然として難しくなります。
関連論文リスト
- Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions [8.616356693448985]
代数的推論は、大きな言語モデルにとって最も有意義なストレステストの1つである。
現在のベンチマークでは、特定の原因に障害をもたらすメカニズムを提供していません。
我々は、各因子が独立に変化し、他の因子は全て固定される9次元の枠組みを導入する。
論文 参考訳(メタデータ) (2026-04-08T08:12:45Z) - Missing-Aware Multimodal Fusion for Unified Microservice Incident Management [22.703696384749595]
ARMORは、モダリティの欠如を前提とした、自己管理型のフレームワークである。
自己監督型自己回帰とマスク誘導型再構成を用いて、異常検出、障害トリアージ、根本原因の局在を共同で最適化する。
完全なデータ条件下での最先端性能を実現し、厳密なモダリティ損失でも堅牢な診断精度を維持する。
論文 参考訳(メタデータ) (2026-03-26T15:14:57Z) - Learning Discriminative and Generalizable Anomaly Detector for Dynamic Graph with Limited Supervision [31.57563937222115]
動的グラフ異常検出(DGAD)は、多くの実世界のアプリケーションにとって重要であるが、ラベル付き異常が不足しているため、依然として困難である。
本稿では,3つの主要コンポーネントを持つ有効で一般化可能な,モデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-23T16:25:35Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - Flow based approach for Dynamic Temporal Causal models with non-Gaussian or Heteroscedastic Noises [37.02662517645979]
因果発見のための統合フレームワークであるFANTOMを紹介する。
非定常過程と非ガウス的および異方性雑音を扱う。
同時にレジームの数と対応するインデックスを推測し、各レジームのディレクテッド・アサイクリックグラフを学習する。
論文 参考訳(メタデータ) (2025-06-20T15:12:43Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。