論文の概要: DrP: Meta's Efficient Investigations Platform at Scale
- arxiv url: http://arxiv.org/abs/2512.04250v1
- Date: Wed, 03 Dec 2025 20:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.86686
- Title: DrP: Meta's Efficient Investigations Platform at Scale
- Title(参考訳): DrP: Metaの大規模調査プラットフォーム
- Authors: Shubham Somani, Vanish Talwar, Madhura Parikh, Eduardo Hernandez, Jimmy Wang, Shreya Shah, Chinmay Gandhi, Sanjay Sundarajan, Neeru Sharma, Srikanth Kamath, Nitin Gupta, Benjamin Renard, Ohad Yahalom, Chris Davis,
- Abstract要約: DrPは、調査を自動化するエンドツーエンドのフレームワークとシステムである。
コードでプレイブックを調査する,表現力のあるフレキシブルなSDKで構成されています。
DrPは過去5年間本番環境で稼働し、1日に50Kの自動分析を実行している。
- 参考スコア(独自算出の注目度): 0.644402572758926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Investigations are a significant step in the operational workflows for large scale systems across multiple domains such as services, data, AI/ML, mobile. Investigation processes followed by on-call engineers are often manual or rely on ad-hoc scripts. This leads to inefficient investigations resulting in increased time to mitigate and isolate failures/SLO violations. It also contributes to on-call toil and poor productivity leading to multiple hours/days spent in triaging/debugging incidents. In this paper, we present DrP, an end-to-end framework and system to automate investigations that reduces the mean time to resolve incidents (MTTR) and reduces on-call toil. DrP consists of an expressive and flexible SDK to author investigation playbooks in code (called analyzers), a scalable backend system to execute these automated playbooks, plug-ins to integrate playbooks into mainstream workflows such as alerts and incident management tools, and a post-processing system to take actions on investigations including mitigation steps. We have implemented and deployed DrP at large scale at Meta covering 300+ teams, 2000+ analyzers, across a large set of use cases across domains such as services, core infrastructure, AI/ML, hardware, mobile. DrP has been running in production for the past 5 years and executes 50K automated analyses per day. Overall, our results and experience show that DrP has been able to reduce average MTTR by 20 percent at large scale (with over 80 percent for some teams) and has significantly improved on-call productivity.
- Abstract(参考訳): 調査は、サービス、データ、AI/ML、モバイルなど、複数のドメインにわたる大規模システムの運用ワークフローにおける重要なステップである。
オンコールエンジニアによる調査プロセスは手作業かアドホックスクリプトに依存していることが多い。
これにより、非効率な調査が行われ、失敗やSLO違反を緩和し、分離する時間が増加する。
また、オンコールの障害や生産性の低下により、インシデントをトリアージ/デバッグする時間に1日何時間も費やされている。
本稿では,MTTR(インシデント)の解決に要する平均時間を削減するとともに,オンコールのトーラスを低減する,エンドツーエンドのフレームワークとシステムであるDrPを提案する。
DrPは、コード中のプレイブック(アナライザと呼ばれる)を調査する表現力豊かなSDK、これらの自動プレイブックを実行するスケーラブルなバックエンドシステム、警告やインシデント管理ツールなどのメインストリームワークフローにプレイブックを統合するプラグイン、緩和手順を含む調査を行う後処理システムで構成されている。
私たちはMetaで、サービス、コアインフラストラクチャ、AI/ML、ハードウェア、モバイルなど、さまざまなドメインにわたる、300以上のチーム、2000以上のアナライザをカバーするDrPを大規模に実装し、デプロイしました。
DrPは過去5年間本番環境で稼働し、1日に50Kの自動分析を実行している。
全体として、私たちの結果と経験から、DrPは平均MTTRを(一部のチームでは80%以上)大規模に20%削減することができ、オンコール生産性を大幅に改善しました。
関連論文リスト
- Speculative Actions: A Lossless Framework for Faster Agentic Systems [6.708126506152481]
AIエージェントの実行は遅く、トレーニングや評価、デプロイメントを妨げていることが多い。
マイクロプロセッサにおける投機的実行に着想を得て,より高速なモデルを用いて潜在的行動を予測するフレームワークを提案する。
我々は,このフレームワークを3つのエージェント環境 – ゲーム,eコマース,Web検索,オペレーティングシステム環境のための"ロッキー"拡張 – で評価する。
論文 参考訳(メタデータ) (2025-10-05T21:28:11Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework [4.802551205178858]
既存の大規模言語モデル(LLM)を支援または自動化した浸透テストアプローチは、しばしば非効率に悩まされる。
VulnBotは複雑なタスクを、偵察、スキャン、エクスプロイトという3つの特別なフェーズに分割する。
主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。
論文 参考訳(メタデータ) (2025-01-23T06:33:05Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - On building machine learning pipelines for Android malware detection: a
procedural survey of practices, challenges and opportunities [4.8460847676785175]
スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。
特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしている。
提案されたアプローチのいくつかは高いパフォーマンスを達成するが、急速に進化するAndroidマルウェアは、時間とともにその正確性を維持することができない。
論文 参考訳(メタデータ) (2023-06-12T13:52:28Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。