論文の概要: Time, Causality, and Observability Failures in Distributed AI Inference Systems
- arxiv url: http://arxiv.org/abs/2604.21361v1
- Date: Thu, 23 Apr 2026 07:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.357823
- Title: Time, Causality, and Observability Failures in Distributed AI Inference Systems
- Title(参考訳): 分散AI推論システムにおける時間・因果性・可観測性障害
- Authors: Ankur Sharma, Deep Shah, David Lariviere, Hesham ElBakoury,
- Abstract要約: この研究は、ノード間の小さなクロックスキューでさえ、可観測性は因果的に不正確になることを示した。
我々は、クロックスキューを単一ステージで導入するマルチノードAI推論パイプラインにおいて、制御された実験を行う。
- 参考スコア(独自算出の注目度): 0.03873823487429827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed AI inference pipelines rely heavily on timestamp-based observability to understand system behavior. This work demonstrates that even small clock skew between nodes can cause observability to become causally incorrect while the system itself remains functionally correct and performant. We present controlled experiments on a multi-node AI inference pipeline, where clock skew is introduced at a single stage. Results show that no violations are observed under synchronized conditions and up to 3 ms skew, while clear causality violations emerge by 5 ms. Despite this, system throughput and output correctness remain largely unaffected. We further observe that violation behavior is not strictly static. In longer runs, negative span rates may stabilize or decrease over time, indicating that effective skew evolves due to relative clock drift between nodes. Experiments were conducted using Kafka and ZeroMQ transports, with consistent results across both. Aeron is under active exploration but is not yet included in the completed validation set. These findings suggest that observability correctness depends not only on system functionality but also on precise time alignment, and that timing must be treated as a first-class concern in distributed AI systems.
- Abstract(参考訳): 分散AI推論パイプラインは、システムの振る舞いを理解するためにタイムスタンプベースの可観測性に大きく依存する。
この研究は、ノード間の小さなクロックスキューでさえ、システム自体が機能的に正しく性能が保たれている間、オブザーバビリティが因果的に不正確になることを実証している。
我々は、クロックスキューを単一ステージで導入するマルチノードAI推論パイプラインにおいて、制御された実験を行う。
結果, 同期条件下では, 最大3msスキューで違反は見られず, 因果関係の明らかな違反は5msで発生した。
さらに、違反行為が厳密に静的ではないことも観察します。
長い走行では、負のスパンレートが時間とともに安定または減少し、ノード間の相対時計のドリフトによって有効スキューが進化することを示す。
KafkaとZeroMQのトランスポートを使って実験を行い、両方で一貫した結果を得た。
エアロンは活発な探査中であるが、まだ検証セットには含まれていない。
これらの結果は、観測可能性の正しさはシステム機能だけでなく、正確な時間アライメントにも依存し、分散AIシステムにおける第一級の関心事として扱う必要があることを示唆している。
関連論文リスト
- Learning Stable Predictors from Weak Supervision under Distribution Shift [2.8410059035029955]
基盤トラストラベルが利用できない場合には、弱さやプロキシの監視から学ぶことが一般的である。
我々はこれを監督ドリフトとして形式化し、文脈間でのP(y | x, c)の変化として定義される。
我々はCRISPR-Cas13d実験において、RNA-seq応答から誘導効果を間接的に推定する実験を行った。
論文 参考訳(メタデータ) (2026-04-05T23:46:49Z) - "I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time [1.570719611178015]
大規模言語モデル(LLM)の推論失敗は通常、世代末にのみ測定されるが、プロセスレベルのブレークダウンとして多くの障害が現れる。
連続的なステップ分布シフト(JSD)と不確実性(エントロピー)を組み合わせた単純な不安定信号を定義する。
GSM8KとHotpotQA全体で、不安定性はAUCで間違った解を予測し、単調バケットレベルの精度を低下させる。
論文 参考訳(メタデータ) (2026-02-02T22:11:25Z) - CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T04:45:56Z) - Uncertainty-aware Unsupervised Multi-Object Tracking [33.53331700312752]
教師なしマルチオブジェクトトラッカーは、信頼できる機能埋め込みの学習に劣る。
最近の自己監督技術は採用されているが、時間的関係を捉えられなかった。
本稿では、不確実性問題は避けられないが、不確実性自体を活用して学習された一貫性を向上させることができると論じる。
論文 参考訳(メタデータ) (2023-07-28T09:03:06Z) - Extending Path-Dependent NJ-ODEs to Noisy Observations and a Dependent
Observation Framework [6.404122934568861]
ノイズの多い観測を処理できる新しい損失関数を導入し、これまで使用されていた損失関数が一貫した推定値に導かなかった理由を説明する。
論文 参考訳(メタデータ) (2023-07-24T22:01:22Z) - Temporal fluctuations of correlators in integrable and chaotic quantum
systems [0.0]
エネルギーギャップの縮退を伴わない多体量子系の時間外および時間順の相関器の無限時間平均に関する時間的変動のバウンダリを提供する。
物理的初期状態について、我々の境界は系の大きさの関数として時間的変動の指数的減衰を予測する。
論文 参考訳(メタデータ) (2023-07-17T12:35:38Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Neural Laplace Control for Continuous-time Delayed Systems [76.81202657759222]
本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
論文 参考訳(メタデータ) (2023-02-24T12:40:28Z) - Quantum Test of the Local Position Invariance with Internal Clock
Interferometry [0.0]
局所的な位置不変性(LPI)をテストするための現在の試みは、異なるクロック遷移率と古典的に交換された信号との比較である。
本稿では,2つの干渉クロックからなる内部原子時計干渉計 LPI の量子テスト実験手法を提案する。
論文 参考訳(メタデータ) (2023-01-26T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。