論文の概要: Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations
- arxiv url: http://arxiv.org/abs/2604.26805v1
- Date: Wed, 29 Apr 2026 15:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.462697
- Title: Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations
- Title(参考訳): Bian Que: オンラインシステム運用のための柔軟なスキルアレンジメントを備えたエージェントフレームワーク
- Authors: Bochao Liu, Zhipeng Qian, Yang Zhao, Xinyuan Jiang, Zihan Liang, Yufei Ma, Junpeng Zhuang, Ben Chen, Shuo Yang, Hongen Wan, Yao Wu, Chenyi Lei, Xiao Liang,
- Abstract要約: Bian Queは、監視、警告応答、根本原因分析のためのエージェントフレームワークである。
これは中国の主要なショートビデオプラットフォームであるKuaiShouのeコマース検索エンジン上に展開された。
警告ボリュームを75%削減し、80%の根源解析精度を実現し、平均分解時間を50%以上削減する。
- 参考スコア(独自算出の注目度): 19.829321356625428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operating and maintaining (O&M) large-scale online engine systems (search, recommendation, advertising) demands substantial human effort for release monitoring, alert response, and root cause analysis. While LLM-based agents are a natural fit for these tasks, the deployment bottleneck is not reasoning capability but orchestration: selecting, for each operational event, the relevant data (metrics, logs, change events) and the applicable operational knowledge (handbook rules and practitioner experience). Feeding all signals indiscriminately causes dilution and hallucination, while manually curating the event-to-(data, knowledge) mapping is intractable under dozens of daily releases. We present Bian Que, an agentic framework with three contributions: (i) a \emph{unified operational paradigm} abstracting day-to-day O&M into three canonical patterns: release interception, proactive inspection, and alert root cause analysis; (ii) \emph{Flexible Skill Arrangement}, where each Skill specifies which data and knowledge to retrieve for a given business-module context and can be automatically generated and updated by LLMs or iteratively refined through natural-language instructions from on-call engineers; (iii) a \emph{unified self-evolving mechanism} in which one correction signal drives two parallel pathways, case-memory-to-knowledge distillation and targeted Skill refinement. Deployed on the e-commerce search engine of KuaiShou, the major short-video platform in China, Bian Que reduces alert volume by 75%, achieves 80% root-cause analysis accuracy, and cuts mean time to resolution by over 50%. Our framework achieves 99.0% pass rate on offline evaluations. Our code is available at https://github.com/benchen4395/BianQue_Assistant.
- Abstract(参考訳): 大規模オンラインエンジンシステム(検索、レコメンデーション、広告)の運用と維持には、リリース監視、アラート応答、根本原因分析に相当な人的努力が必要である。
LLMベースのエージェントはこれらのタスクに自然に適合するが、デプロイメントのボトルネックは推論能力ではなく、オーケストレーションである。それぞれの運用イベント、関連するデータ(メトリック、ログ、変更イベント)、適用可能な運用知識(ハンドブックルールと実践者エクスペリエンス)を選択する。
すべての信号を無差別にフィードすることは、希釈と幻覚を引き起こし、手動でイベント・トゥ・(データ、知識)マッピングをキュレートすることは、何十もの日次リリースで引き起こされる。
私たちは3つのコントリビューションを持つエージェントフレームワークであるBian Queを紹介します。
i) 日々のO&Mを3つの標準パターンに抽象化する「emph{unified Operation paradigm」
(ii) \emph{Flexible Skill Arrangement} ここでは、各スキルが与えられたビジネスモジュールコンテキストに対して取得するデータと知識を指定する。
3) 1つの補正信号が2つの並列経路を駆動する「emph{unified self-evolving mechanism」。
中国の主要ショートビデオプラットフォームであるKuaiShouのeコマース検索エンジン上に展開されたBian Queは、アラートのボリュームを75%削減し、根本原因分析の精度を80%向上し、平均時間を50%以上削減する。
我々のフレームワークは、オフライン評価において99.0%のパスレートを達成する。
私たちのコードはhttps://github.com/benchen4395/BianQue_Assistantで利用可能です。
関連論文リスト
- Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? [35.30497528897595]
Agentic-MMEはマルチモーダルエージェント能力のプロセス検証ベンチマークである。
6つのドメインにまたがる418の現実世界タスクと3つの困難レベルを含んでいる。
2,000以上のステップワイズなチェックポイントがあり、1タスクあたり平均10時間以上の手動アノテーションがある。
論文 参考訳(メタデータ) (2026-04-03T13:02:01Z) - SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding [41.98672557723593]
SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
論文 参考訳(メタデータ) (2026-03-17T05:12:48Z) - XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights [0.0]
我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法では,障害原因の同定を2.8倍高速に行うことができ,実際の実行トレースよりも73%高い精度で修正を提案する。
論文 参考訳(メタデータ) (2026-03-06T06:18:20Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Towards Compositional Generalization in LLMs for Smart Contract Security: A Case Study on Reentrancy Vulnerabilities [35.39583123277091]
本稿では,原子タスクの分解と融合に基づくポストトレーニングアルゴリズムを提案する。
再帰的脆弱性検出タスクを4つの線形独立原子タスクに分解する。
合成データセットのトレーニングにより、3つのコンパイラ検証データセットを生成する。
次に、Slitherツールを使用して、制御フローグラフとデータフローグラフから構造情報を抽出する。
論文 参考訳(メタデータ) (2026-01-11T13:52:07Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Temporal Attack Pattern Detection in Multi-Agent AI Workflows: An Open Framework for Training Trace-Based Security Models [0.0]
マルチエージェントAIにおける時間的攻撃パターンを検出するために,言語モデルを微調整するためのオープンドキュメンテーション手法を提案する。
18の公開サイバーセキュリティソースと35,026の合成OpenTelemetryトレースから80,851のデータセットをキュレートする。
カスタムベンチマークの精度は42.86%から74.29%に向上し、統計的に有意な31.4ポイントの上昇となった。
論文 参考訳(メタデータ) (2025-12-29T09:41:22Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。