論文の概要: STRIDE: A Systematic Framework for Selecting AI Modalities - Agentic AI, AI Assistants, or LLM Calls
- arxiv url: http://arxiv.org/abs/2512.02228v1
- Date: Mon, 01 Dec 2025 21:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.62321
- Title: STRIDE: A Systematic Framework for Selecting AI Modalities - Agentic AI, AI Assistants, or LLM Calls
- Title(参考訳): STRIDE: AIモダリティを選択するためのシステムフレームワーク - エージェントAI、AIアシスタント、LLMコール
- Authors: Shubhi Asthana, Bing Zhang, Chad DeLuca, Ruchi Mahindru, Hima Patel,
- Abstract要約: 本稿では,3つのモード間の選択を原則として推奨するフレームワークSTRIDE(Systematic Task Reasoning Intelligence Deployment Evaluator)を提案する。
STRIDEは構造化されたタスク分解、ダイナミズムの属性、自己回帰要求分析を統合し、エージェント適合スコアを生成する。
モダリティの選択では92%の精度を達成し、不要なエージェントの配置を45%削減し、リソースコストを37%削減した。
- 参考スコア(独自算出の注目度): 6.5640770609606385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid shift from stateless large language models (LLMs) to autonomous, goal-driven agents raises a central question: When is agentic AI truly necessary? While agents enable multi-step reasoning, persistent memory, and tool orchestration, deploying them indiscriminately leads to higher cost, complexity, and risk. We present STRIDE (Systematic Task Reasoning Intelligence Deployment Evaluator), a framework that provides principled recommendations for selecting between three modalities: (i) direct LLM calls, (ii) guided AI assistants, and (iii) fully autonomous agentic AI. STRIDE integrates structured task decomposition, dynamism attribution, and self-reflection requirement analysis to produce an Agentic Suitability Score, ensuring that full agentic autonomy is reserved for tasks with inherent dynamism or evolving context. Evaluated across 30 real-world tasks spanning SRE, compliance, and enterprise automation, STRIDE achieved 92% accuracy in modality selection, reduced unnecessary agent deployments by 45%, and cut resource costs by 37%. Expert validation over six months in SRE and compliance domains confirmed its practical utility, with domain specialists agreeing that STRIDE effectively distinguishes between tasks requiring simple LLM calls, guided assistants, or full agentic autonomy. This work reframes agent adoption as a necessity-driven design decision, ensuring autonomy is applied only when its benefits justify the costs.
- Abstract(参考訳): ステートレスな大規模言語モデル(LLM)から自律的な目標駆動型エージェントへの急激なシフトは、中心的な疑問を提起する。
エージェントがマルチステップ推論、永続メモリ、ツールオーケストレーションを可能にする一方で、それらを無差別にデプロイすることは、コスト、複雑さ、リスクにつながる。
システムタスク推論インテリジェンスデプロイ評価手法STRIDE(Systematic Task Reasoning Intelligence Deployment Evaluator)について述べる。
(i)直接LLM呼び出し
(二)誘導型AIアシスタント、及び
(三)完全自律型エージェントAI。
STRIDEは構造化されたタスク分解、ダイナミズムの属性、自己回帰要求分析を統合してエージェント適合性スコアを生成し、固有のダイナミズムや進化するコンテキストを持つタスクに対して完全なエージェント自律性を確保する。
SRE、コンプライアンス、エンタープライズオートメーションにまたがる30の現実世界のタスクを評価し、STRIDEはモダリティ選択の精度92%、不要なエージェントデプロイメントを45%削減し、リソースコストを37%削減した。
SREとコンプライアンスドメインの6ヶ月にわたる専門家による検証が実用性を確認し、ドメインスペシャリストはSTRIDEが単純なLLMコール、ガイド付きアシスタント、あるいは完全なエージェント自律性を必要とするタスクを効果的に区別することに同意した。
この作業は、エージェントの採用を必要駆動設計の決定として再定義し、そのメリットがコストを正当化する場合のみ、自律性を保証する。
関連論文リスト
- AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。
AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。
予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (2025-11-13T15:14:47Z) - Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - AURA: An Agent Autonomy Risk Assessment Framework [0.0]
AURA(Agent aUtonomy Risk Assessment)はエージェントAIによるリスクの検出、定量化、緩和を目的とした統合されたフレームワークである。
AURAは、1つまたは複数のAIエージェントを同期的に、あるいは非同期に実行するリスクをスコアし、評価し、緩和するインタラクティブなプロセスを提供する。
AURAはエージェントAIの責任と透過性をサポートし、計算リソースのバランスを保ちながら、堅牢なリスク検出と緩和を提供する。
論文 参考訳(メタデータ) (2025-10-17T15:30:29Z) - LIMI: Less is More for Agency [49.63355240818081]
LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。
高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。
マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
論文 参考訳(メタデータ) (2025-09-22T10:59:32Z) - Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文 参考訳(メタデータ) (2025-08-18T17:55:22Z) - Taming Uncertainty via Automation: Observing, Analyzing, and Optimizing Agentic AI Systems [1.9751175705897066]
大規模言語モデル (LLMs) はエージェントシステムにますます展開され、対話型のLLMエージェントは複雑で、メモリ、ツール、動的プランニングを用いて適応的に実行される。
従来のソフトウェアオブザーバビリティと運用プラクティスは、これらの課題に対処するには不十分です。
本稿ではエージェントAIシステムの動作を観察し、分析し、最適化し、自動化するための総合的なフレームワークであるAgentOpsを紹介する。
論文 参考訳(メタデータ) (2025-07-15T12:54:43Z) - Measuring AI agent autonomy: Towards a scalable approach with code inspection [8.344207672507334]
我々は、特定のタスクを実行するためにAIエージェントを実行する必要をなくす、自律性に関するコードベースの評価を導入する。
このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。
論文 参考訳(メタデータ) (2025-02-21T04:58:40Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。