論文の概要: AI Observability for Large Language Model Systems: A Multi-Layer Analysis of Monitoring Approaches from Confidence Calibration to Infrastructure Tracing
- arxiv url: http://arxiv.org/abs/2604.26152v1
- Date: Tue, 28 Apr 2026 22:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.189442
- Title: AI Observability for Large Language Model Systems: A Multi-Layer Analysis of Monitoring Approaches from Confidence Calibration to Infrastructure Tracing
- Title(参考訳): 大規模言語モデルシステムのAI可観測性:信頼度校正からインフラストラクチャトレースへのモニタリングアプローチの多層解析
- Authors: Twinkll Sisodia,
- Abstract要約: 本稿では,近年の5つの研究成果を構造化し,AI観測可能性の新たな展望を総合的に定義する。
我々はこれらの貢献を5階層の可観測性分類に分類し、それらの重要な知見を統一された比較に合成し、未適応のままである4つの重要なギャップを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of large language models (LLMs) in production environments has created an urgent need for observability systems that span the full stack -- from model internals to GPU kernels. Yet existing monitoring approaches address isolated layers of this stack, and no comprehensive analysis has examined how these techniques relate, overlap, or complement each other. This paper presents a structured analysis of five recent research contributions (2025-2026) that collectively define the emerging landscape of AI observability: confidence calibration via reinforcement learning (MIT), internal state monitoring through propositional probes (UC Berkeley), chain-of-thought monitorability evaluation (OpenAI), autonomous cloud operations benchmarking (Microsoft Research, UC Berkeley, UIUC), and non-intrusive inference-level tracing (TRUFFLD). We organize these contributions into a five-layer observability taxonomy, synthesize their key findings into a unified comparison, and identify four critical gaps that remain unaddressed. We further contextualize these research directions against practical operational observability systems that translate infrastructure telemetry into actionable insights for site reliability teams. Our analysis reveals that while individual monitoring layers have matured rapidly, the integration challenge -- connecting model-level confidence signals with infrastructure-level anomalies into coherent operational intelligence -- remains the defining open problem for the field.
- Abstract(参考訳): 大規模言語モデル(LLM)を本番環境にデプロイすることで、モデル内部からGPUカーネルに至るまで、フルスタックにまたがる可観測性システムに対する緊急の要求が生まれました。
しかし、既存の監視アプローチはこのスタックの分離されたレイヤに対処しており、これらのテクニックがどのように関連し、重複し、補完するかを包括的な分析は行っていない。
本稿では、AIの可観測性に関する最近の5つの研究成果(2025-2026)について、強化学習による信頼度校正(MIT)、提案型プローブ(UC Berkeley)による内部状態監視(UC Berkeley)、チェーンオブ思考監視可能性評価(OpenAI)、自律クラウド運用ベンチマーク(Microsoft Research, UC Berkeley, UIUC)、非侵入的推論レベルのトレース(TRUFFLD)をまとめて分析する。
我々はこれらの貢献を5階層の可観測性分類に分類し、それらの重要な知見を統一された比較に合成し、未適応のままである4つの重要なギャップを同定する。
さらに、インフラテレメトリをサイト信頼性チームのための実用的な洞察に変換する実用的な運用可観測システムに対して、これらの研究の方向性を文脈的に検討する。
私たちの分析によると、個々の監視レイヤは急速に成熟したものの、モデルレベルの信頼性信号とインフラストラクチャレベルの異常をコヒーレントな運用インテリジェンスに接続するという統合の課題は、この分野における決定的なオープンな問題のままである。
関連論文リスト
- Cooperative Informative Sensing for Monitoring Dynamic Indoor Environments via Multi-Agent Reinforcement Learning [56.64821510576244]
我々は,複数のロボットが動作を調整し,部分観測可能性下での監視精度を直接最適化する分散制御問題として,協調的アクティブな観察を定式化する。
本稿では,多エージェント強化学習(MARL)を用いた分散観測から,多人数の人間と時間的依存関係を扱うアーキテクチャを基盤とした協調政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-25T07:20:15Z) - Pitfalls in Evaluating Interpretability Agents [91.49742416116635]
我々は,実験を反復的に設計し,仮説を洗練するエージェントシステムを構築した。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を実証している。
論文 参考訳(メタデータ) (2026-03-20T16:27:17Z) - Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity [0.0]
両予測可能性(P)を用いて,マルチターンインタラクションの整合性を継続的に監視できることが示される。
Information Digital Twin (IDT) は、コンテキスト、応答、次のプロンプトループを二次推論や埋め込みなしでPを推定する軽量アーキテクチャである。
論文 参考訳(メタデータ) (2026-03-18T18:10:37Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Investigating CoT Monitorability in Large Reasoning Models [10.511177985572333]
大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
これらの詳細な推論トレースは、AI安全性、CoT Monitorabilityの新しい機会も生み出す。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
論文 参考訳(メタデータ) (2025-11-11T18:06:34Z) - Detecting High-Stakes Interactions with Activation Probes [10.421494494629421]
そこで本論文では,対話が大きな害をもたらす可能性を示唆する「ハイテイク」相互作用を検出するためのアクティベーションプローブについて検討する。
我々は、合成データに基づいて訓練された複数のプローブアーキテクチャを評価し、それらが多種多様な分布外の実世界のデータに対して堅牢な一般化を示すことを発見した。
また,資源を意識した階層型モニタリングシステムの構築の可能性についても検討した。
論文 参考訳(メタデータ) (2025-06-12T15:20:33Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。