Fugu-MT 論文翻訳(概要): Taming Uncertainty via Automation: Observing, Analyzing, and Optimizing Agentic AI Systems

論文の概要: Taming Uncertainty via Automation: Observing, Analyzing, and Optimizing Agentic AI Systems

arxiv url: http://arxiv.org/abs/2507.11277v1
Date: Tue, 15 Jul 2025 12:54:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-16 19:46:03.117155
Title: Taming Uncertainty via Automation: Observing, Analyzing, and Optimizing Agentic AI Systems
Title（参考訳）: 自動化による不確実性への対処:エージェントAIシステムの監視、分析、最適化
Authors: Dany Moshkovich, Sergey Zeltyn,
Abstract要約: 大規模言語モデル (LLMs) はエージェントシステムにますます展開され、対話型のLLMエージェントは複雑で、メモリ、ツール、動的プランニングを用いて適応的に実行される。従来のソフトウェアオブザーバビリティと運用プラクティスは、これらの課題に対処するには不十分です。本稿ではエージェントAIシステムの動作を観察し、分析し、最適化し、自動化するための総合的なフレームワークであるAgentOpsを紹介する。
参考スコア（独自算出の注目度）: 1.9751175705897066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly deployed within agentic systems-collections of interacting, LLM-powered agents that execute complex, adaptive workflows using memory, tools, and dynamic planning. While enabling powerful new capabilities, these systems also introduce unique forms of uncertainty stemming from probabilistic reasoning, evolving memory states, and fluid execution paths. Traditional software observability and operations practices fall short in addressing these challenges. This paper introduces AgentOps: a comprehensive framework for observing, analyzing, optimizing, and automating operation of agentic AI systems. We identify distinct needs across four key roles-developers, testers, site reliability engineers (SREs), and business users-each of whom engages with the system at different points in its lifecycle. We present the AgentOps Automation Pipeline, a six-stage process encompassing behavior observation, metric collection, issue detection, root cause analysis, optimized recommendations, and runtime automation. Throughout, we emphasize the critical role of automation in managing uncertainty and enabling self-improving AI systems-not by eliminating uncertainty, but by taming it to ensure safe, adaptive, and effective operation.
Abstract（参考訳）: 大規模言語モデル (LLM) はエージェントシステム内にますます展開され、対話型のLLMエージェントがメモリ、ツール、動的プランニングを使って複雑な適応ワークフローを実行するようになっている。これらのシステムは強力な新機能を実現する一方で、確率論的推論、記憶状態の進化、流体実行経路から生じる独自の不確実性も導入している。従来のソフトウェアオブザーバビリティと運用プラクティスは、これらの課題に対処するには不十分です。本稿ではエージェントAIシステムの動作を観察し、分析し、最適化し、自動化するための総合的なフレームワークであるAgentOpsを紹介する。 4つの重要な役割 – 開発者,テスタ,サイト信頼性エンジニア(SRE),ビジネスユーザ – にまたがるニーズを特定します。 AgentOps Automation Pipelineは、行動観察、メトリクス収集、問題検出、ルート原因分析、最適化されたレコメンデーション、ランタイム自動化を含む6段階のプロセスである。全体として、不確実性の管理と自己改善AIシステムの実現における自動化の重要性を強調します。

関連論文リスト

A Survey on Agent Workflow -- Status and Future [2.817843718857682]
この調査は、エージェントワークフローシステムの包括的なレビューを提供する。既存のシステムを機能機能機能とアーキテクチャの2つの重要な側面に沿って分類する。共通パターン、潜在的な技術的課題、新たなトレンドを強調します。
論文参考訳（メタデータ） (2025-08-02T04:15:30Z)
SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文参考訳（メタデータ） (2025-07-01T15:10:00Z)
SV-LLM: An Agentic Approach for SoC Security Verification using Large Language Models [8.912091484067508]
SV-LLMは,システムオンチップ(SoC)セキュリティ検証の自動化と強化を目的とした,新しいマルチエージェントアシスタントシステムである。検証質問応答、セキュリティ資産の識別、脅威モデリング、テスト計画とプロパティ生成、脆弱性検出、シミュレーションベースのバグ検証といったタスクのための特別なエージェントを統合することで、SV-LLMはワークフローを合理化する。このシステムは,手作業による介入を減らすこと,精度の向上,セキュリティ分析の高速化,設計サイクルの初期段階におけるリスクの積極的な識別と緩和を支援することを目的としている。
論文参考訳（メタデータ） (2025-06-25T13:31:13Z)
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance [7.110126223593506]
本稿では,これまで異なる専門知識と手動調整を必要としていたタスクを,AIエージェントが自律的に管理する未来を想定する。 AssetOpsBench - ドメイン固有のエージェントの開発、オーケストレーション、評価をガイドするために設計された、統合されたフレームワークと環境。我々は,このような包括的システムに対する重要な要件を概説し,実世界の産業活動に対する認識,推論,制御を統合するエージェント構築に関する実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-06-04T10:57:35Z)
Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。 AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T10:56:06Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds [12.464941027105306]
AI for IT Operations(AIOps)は、障害のローカライゼーションや根本原因分析といった複雑な運用タスクを自動化することを目的としており、人間の作業量を削減し、顧客への影響を最小限にする。大規模言語モデル(LLM)とAIエージェントの最近の進歩は、エンドツーエンドとマルチタスクの自動化を可能にすることで、AIOpsに革命をもたらしている。マイクロサービスクラウド環境をデプロイし、障害を注入し、ワークロードを生成し、テレメトリデータをエクスポートするフレームワークであるAIOPSLABを紹介します。
論文参考訳（メタデータ） (2025-01-12T04:17:39Z)
A Multi-AI Agent System for Autonomous Optimization of Agentic AI Solutions via Iterative Refinement and LLM-Driven Feedback Loops [3.729242965449096]
本稿では,産業間におけるエージェントAIソリューションを自律的に最適化するフレームワークを提案する。このフレームワークは、仮説を自律的に生成し、テストすることで、人間の入力なしに最適な性能を達成する。ケーススタディでは、アウトプットの品質、妥当性、動作性が大幅に改善された。
論文参考訳（メタデータ） (2024-12-22T20:08:04Z)
AgentOps: Enabling Observability of LLM Agents [12.49728300301026]
大規模言語モデル(LLM)エージェントは、自律的で非決定論的行動のため、AI安全性に重大な懸念を提起する。本稿では,エージェントのライフサイクル全体を通じて追跡されるべきアーティファクトと関連するデータを特定し,効果的な観測可能性を実現するための,AgentOpsの包括的な分類法を提案する。私たちの分類は、監視、ロギング、分析をサポートするAgentOpsインフラストラクチャを設計、実装するためのリファレンステンプレートとして機能します。
論文参考訳（メタデータ） (2024-11-08T02:31:03Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文参考訳（メタデータ） (2024-02-07T01:45:14Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。