論文の概要: Engineering Robustness into Personal Agents with the AI Workflow Store
- arxiv url: http://arxiv.org/abs/2605.10907v2
- Date: Tue, 12 May 2026 03:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 15:25:41.420876
- Title: Engineering Robustness into Personal Agents with the AI Workflow Store
- Title(参考訳): AIワークフローストアによるパーソナルエージェントへのエンジニアリングロバストネス
- Authors: Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang,
- Abstract要約: 我々は、AIエージェントの主流のパラダイムは「オンザフライ」ループであり、エージェントはプランを合成し、ユーザプロンプトに応じて数秒から数分以内にアクションを実行する。
迅速なリアルタイム合成に焦点を合わせることで、AIエージェントは、ユーザーが無意識にそれらを適用できるような高度なシナリオに適合するシステムではなく、ユーザーが即興のプロトタイプを効果的に提供できるのだろうか?
本稿では,厳密なSEプロセスをエージェントループに統合して生産段階,硬化,決定論的に制約されたエージェント*ワークフローを生成する必要性を論じる。
- 参考スコア(独自算出の注目度): 6.998267150166384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant paradigm for AI agents is an "on-the-fly" loop in which agents synthesize plans and execute actions within seconds or minutes in response to user prompts. We argue that this paradigm short-circuits disciplined software engineering (SE) processes -- iterative design, rigorous testing, adversarial evaluation, staged deployment, and more -- that have delivered the (relatively) reliable and secure systems we use today. By focusing on rapid, real-time synthesis, are AI agents effectively delivering users improvised prototypes rather than systems fit for high-stakes scenarios in which users may unwittingly apply them? This paper argues for the need to integrate rigorous SE processes into the agentic loop to produce production-grade, hardened, and deterministically-constrained agent *workflows* that substantially outperform the potentially brittle and vulnerable results of on-the-fly synthesis. Doing so may require extra compute and time, and if so, we must amortize the cost of rigor through reuse across a broad user community. We envision an *AI Workflow Store* that consists of hardened and reusable workflows that agents can invoke with far greater reliability and security than improvised tool chains. We outline the research challenges of this vision, which stem from a broader flexibility-robustness tension that we argue requires moving beyond the ``on-the-fly'' paradigm to navigate effectively.
- Abstract(参考訳): AIエージェントの主流のパラダイムは"on-the-fly"ループであり、エージェントはユーザプロンプトに応じて数秒から数分以内にプランを合成し、アクションを実行する。
このパラダイムは、反復設計、厳密なテスト、敵意評価、段階的なデプロイメントなど、私たちが現在使用している(比較的)信頼性とセキュアなシステムを提供してくれるソフトウェアエンジニアリング(SE)プロセスを規律化したものだ、と私たちは論じています。
迅速なリアルタイム合成に焦点を合わせることで、AIエージェントは、ユーザーが無意識にそれらを適用できるような高度なシナリオに適合するシステムではなく、ユーザーが即興のプロトタイプを効果的に提供できるのだろうか?
本稿では,厳密なSEプロセスをエージェントループに統合して生産段階,硬化,決定論的に制約されたエージェント*ワークフローを生成する必要性を論じる。
それを行うには、余分な計算と時間を要し、もしそうなら、幅広いユーザコミュニティで再利用することで、厳格さのコストを減らさなければなりません。
私たちは、エージェントが即興のツールチェーンよりもはるかに高い信頼性とセキュリティで呼び出せる、強化された再利用可能なワークフローで構成される*AI Workflow Store*を構想しています。
我々は、このビジョンの課題について概説する。これは、効果的にナビゲートするために 'on-the-fly'' パラダイムを超えて移動する必要があると主張する、より広い柔軟性とロバスト性の緊張に起因している。
関連論文リスト
- Step-level Optimization for Efficient Computer-use Agents [51.29573359027217]
我々は、強力なコンピュータ利用エージェントは、実際は高価で遅いと論じている。
本稿では,コンピュータ利用エージェントのためのイベント駆動ステップレベルカスケードを提案する。
論文 参考訳(メタデータ) (2026-04-29T19:59:36Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - The Evolution of Agentic AI in Cybersecurity: From Single LLM Reasoners to Multi-Agent Systems and Autonomous Pipelines [0.0]
サイバーセキュリティはエージェントAIのアーリーアダプターの1つになった。
この調査は、サイバーセキュリティにおけるエージェントAIの5世代分類を提示する。
論文 参考訳(メタデータ) (2025-12-07T05:10:16Z) - ProRefine: Inference-Time Prompt Refinement with Textual Feedback [10.679248386926703]
AgenticThoughtは、複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行する。
本稿では,LLMのエージェントループを用いてテキストフィードバックを生成し,適用する,革新的な推論時間最適化手法ProRefineを紹介する。
論文 参考訳(メタデータ) (2025-06-05T17:52:30Z) - The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文 参考訳(メタデータ) (2025-06-04T14:37:54Z) - Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。