論文の概要: Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2601.12560v1
- Date: Sun, 18 Jan 2026 19:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.684252
- Title: Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents
- Title(参考訳): エージェント人工知能(AI):大規模言語モデルエージェントのアーキテクチャ、分類、評価
- Authors: Arunkumar V, Gangadharan G. R., Rajkumar Buyya,
- Abstract要約: エージェントを知覚,脳,計画,行動,ツール利用,コラボレーションに分割する統合分類法を提案する。
また、デジタルオペレーティングシステム、エンボディロボット、その他の特殊なドメインを含む、これらのエージェントが動作する環境もグループ化します。
- 参考スコア(独自算出の注目度): 14.448267395835721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence is moving from models that only generate text to Agentic AI, where systems behave as autonomous entities that can perceive, reason, plan, and act. Large Language Models (LLMs) are no longer used only as passive knowledge engines but as cognitive controllers that combine memory, tool use, and feedback from their environment to pursue extended goals. This shift already supports the automation of complex workflows in software engineering, scientific discovery, and web navigation, yet the variety of emerging designs, from simple single loop agents to hierarchical multi agent systems, makes the landscape hard to navigate. In this paper, we investigate architectures and propose a unified taxonomy that breaks agents into Perception, Brain, Planning, Action, Tool Use, and Collaboration. We use this lens to describe the move from linear reasoning procedures to native inference time reasoning models, and the transition from fixed API calls to open standards like the Model Context Protocol (MCP) and Native Computer Use. We also group the environments in which these agents operate, including digital operating systems, embodied robotics, and other specialized domains, and we review current evaluation practices. Finally, we highlight open challenges, such as hallucination in action, infinite loops, and prompt injection, and outline future research directions toward more robust and reliable autonomous systems.
- Abstract(参考訳): 人工知能は、テキストのみを生成するモデルからエージェントAIへと移行している。
大規模言語モデル(LLM)は、もはや受動的知識エンジンとしてではなく、メモリ、ツールの使用、環境からのフィードバックを組み合わせた認知コントローラとして使われるようになった。
このシフトは、ソフトウェアエンジニアリング、科学的発見、Webナビゲーションにおける複雑なワークフローの自動化をすでにサポートしていますが、単純な単一ループエージェントから階層的なマルチエージェントシステムまで、さまざまな新しい設計が、ランドスケープをナビゲートしにくくしています。
本稿では, エージェントを知覚, 脳, 計画, 行動, ツール利用, コラボレーションに分割する統合分類法を提案する。
このレンズは、線形推論プロシージャからネイティブ推論時間推論モデルへの移行と、固定API呼び出しから、モデルコンテキストプロトコル(MCP)やネイティブコンピュータ利用といったオープン標準への移行を記述します。
また、これらのエージェントが動作する環境、例えば、デジタルオペレーティングシステム、エンボディロボット工学、その他の専門分野をグループ化し、現在の評価実践についてレビューする。
最後に、行動における幻覚、無限ループ、即時注入といったオープンな課題を強調し、より堅牢で信頼性の高い自律システムに向けた今後の研究の方向性を概説する。
関連論文リスト
- Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.209787026732972]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。
この調査はエージェントAI構築におけるパラダイムシフトをトレースする。
それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文 参考訳(メタデータ) (2025-10-19T05:23:43Z) - A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。
我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。
コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文 参考訳(メタデータ) (2025-10-13T04:07:01Z) - A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。
近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。
この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-10T16:07:32Z) - Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction [0.4786416643636131]
大規模言語モデル(LLM)や視覚言語モデル(VLM)を含む基礎モデルは、ロボットの自律性とヒューマンロボットインタフェースに対する新しいアプローチを実現した。
並行して、視覚言語行動モデル(VLA)や大型行動モデル(LBM)は、ロボットシステムのデクスタリティと能力を高めている。
論文 参考訳(メタデータ) (2025-08-07T11:48:03Z) - Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。
このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。
本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:58:12Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。