論文の概要: Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement
- arxiv url: http://arxiv.org/abs/2510.27051v1
- Date: Thu, 30 Oct 2025 23:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.934694
- Title: Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement
- Title(参考訳): Adaptive Data Flywheel: AIエージェントの改善にMAPEコントロールループの適用
- Authors: Aaditya Shukla, Sidney Knowles, Meenakshi Madugula, Dave Farris, Ryan Angilly, Santiago Pombo, Anbang Xu, Lu An, Abhinav Balasubramanian, Tan Yu, Jiaxiang Ren, Rama Akkiraju,
- Abstract要約: 我々は、NVIDIAのMixture-of-Experts (MoE) Knowledge AssistantであるNVInfo AIにおけるデータフライホイールの実践的な実装について述べる。
我々は、検索強化世代(RAG)パイプラインの障害に対処し、継続的な学習を可能にするクローズドループシステムを構築した。
ルーティングでは、Llama 3.1Bモデルを微調整8Bモデルに置き換え、96%の精度、モデルサイズ10倍の削減、70%のレイテンシ改善を実現した。
- 参考スコア(独自算出の注目度): 8.230420096371407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise AI agents must continuously adapt to maintain accuracy, reduce latency, and remain aligned with user needs. We present a practical implementation of a data flywheel in NVInfo AI, NVIDIA's Mixture-of-Experts (MoE) Knowledge Assistant serving over 30,000 employees. By operationalizing a MAPE-driven data flywheel, we built a closed-loop system that systematically addresses failures in retrieval-augmented generation (RAG) pipelines and enables continuous learning. Over a 3-month post-deployment period, we monitored feedback and collected 495 negative samples. Analysis revealed two major failure modes: routing errors (5.25\%) and query rephrasal errors (3.2\%). Using NVIDIA NeMo microservices, we implemented targeted improvements through fine-tuning. For routing, we replaced a Llama 3.1 70B model with a fine-tuned 8B variant, achieving 96\% accuracy, a 10x reduction in model size, and 70\% latency improvement. For query rephrasal, fine-tuning yielded a 3.7\% gain in accuracy and a 40\% latency reduction. Our approach demonstrates how human-in-the-loop (HITL) feedback, when structured within a data flywheel, transforms enterprise AI agents into self-improving systems. Key learnings include approaches to ensure agent robustness despite limited user feedback, navigating privacy constraints, and executing staged rollouts in production. This work offers a repeatable blueprint for building robust, adaptive enterprise AI agents capable of learning from real-world usage at scale.
- Abstract(参考訳): エンタープライズAIエージェントは、正確性を維持し、レイテンシを低減し、ユーザニーズに整合し続けなければならない。
我々は、NVIDIAのMixture-of-Experts (MoE) Knowledge AssistantであるNVInfo AIにおけるデータフライホイールの実践的な実装について述べる。
MAPE駆動型データフライホイールを運用することにより,検索強化生成(RAG)パイプラインの障害を系統的に処理し,継続的な学習を可能にするクローズドループシステムを構築した。
デプロイ後3ヶ月でフィードバックを監視し,495件の陰性サンプルを収集した。
分析の結果、ルーティングエラー(5.25\%)とクエリのリフレーズエラー(3.2\%)の2つの大きな障害モードが明らかになった。
NVIDIA NeMoマイクロサービスを使用することで、微調整によるターゲットの改善を実現しました。
ルーティングでは、Llama 3.1 70Bモデルを微調整8Bモデルに置き換え、96\%の精度、モデルサイズの10倍の削減、70\%のレイテンシ改善を実現した。
クエリのリフレーズでは、微調整によって精度が3.7\%向上し、レイテンシが40\%低下した。
私たちのアプローチでは、データフライホイール内で構造化されたHuman-in-the-loop(HITL)フィードバックが、エンタープライズAIエージェントを自己改善システムに変換する方法を示しています。
主な学習には、ユーザのフィードバックが限られているにも関わらず、エージェントの堅牢性を保証するアプローチ、プライバシ制約のナビゲート、本番環境でのステージングロールアウトの実行などが含まれる。
この作業は、実世界から大規模に学習可能な堅牢で適応的なエンタープライズAIエージェントを構築するための、繰り返し可能な青写真を提供する。
関連論文リスト
- Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Anomaly Detection for Incident Response at Scale [1.284857579394658]
我々は、Walmartのビジネスとシステムの状態をリアルタイムで監視する、機械学習ベースの異常検出製品を提案する。
3ヶ月にわたる検証の間、製品は3000以上のモデルから25以上のアプリケーション、プラットフォーム、運用チームへの予測を提供した。
AIDRは、検出にかかる時間が少なく、従来の方法よりも偽陽性が少ない、さまざまな社内チームで成功している。
論文 参考訳(メタデータ) (2024-04-24T00:46:19Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。