論文の概要: From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2504.19678v1
- Date: Mon, 28 Apr 2025 11:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.408328
- Title: From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review
- Title(参考訳): LLM推論から自律型AIエージェントへ:総合的なレビュー
- Authors: Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah,
- Abstract要約: 大規模言語モデルと自律型AIエージェントを評価するベンチマークを2019年から2025年にかけて開発した。
本稿では,知識推論,数学的問題解決,コード生成とソフトウェア工学,事実的根拠と検索,ドメイン固有評価,マルチモーダルおよび具体的タスク,タスクオーケストレーション,インタラクティブアセスメントを対象とする約60のベンチマークの分類法を提案する。
我々は、材料科学、バイオメディカルリサーチ、学術思想、ソフトウェア工学、合成データ生成、数学的問題解決、地理情報システム、マルチメディア、医療、金融における自律型AIエージェントの現実的な応用を提示する。
- 参考スコア(独自算出の注目度): 1.4929298667651645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models and autonomous AI agents have evolved rapidly, resulting in a diverse array of evaluation benchmarks, frameworks, and collaboration protocols. However, the landscape remains fragmented and lacks a unified taxonomy or comprehensive survey. Therefore, we present a side-by-side comparison of benchmarks developed between 2019 and 2025 that evaluate these models and agents across multiple domains. In addition, we propose a taxonomy of approximately 60 benchmarks that cover general and academic knowledge reasoning, mathematical problem-solving, code generation and software engineering, factual grounding and retrieval, domain-specific evaluations, multimodal and embodied tasks, task orchestration, and interactive assessments. Furthermore, we review AI-agent frameworks introduced between 2023 and 2025 that integrate large language models with modular toolkits to enable autonomous decision-making and multi-step reasoning. Moreover, we present real-world applications of autonomous AI agents in materials science, biomedical research, academic ideation, software engineering, synthetic data generation, chemical reasoning, mathematical problem-solving, geographic information systems, multimedia, healthcare, and finance. We then survey key agent-to-agent collaboration protocols, namely the Agent Communication Protocol (ACP), the Model Context Protocol (MCP), and the Agent-to-Agent Protocol (A2A). Finally, we discuss recommendations for future research, focusing on advanced reasoning strategies, failure modes in multi-agent LLM systems, automated scientific discovery, dynamic tool integration via reinforcement learning, integrated search capabilities, and security vulnerabilities in agent protocols.
- Abstract(参考訳): 大規模言語モデルと自律型AIエージェントは急速に進化し、さまざまな評価ベンチマーク、フレームワーク、コラボレーションプロトコルが生まれている。
しかし、景観は断片化されており、統合された分類学や総合的な調査が欠けている。
そこで、2019年から2025年の間に開発されたベンチマークを並べて比較し、これらのモデルとエージェントを複数のドメインにわたって評価する。
さらに, 一般的な知識推論, 数学的問題解決, コード生成, ソフトウェア工学, 実地検索, ドメイン固有評価, マルチモーダルおよび具体的タスク, タスクオーケストレーション, インタラクティブアセスメントを対象とする, 約60のベンチマークの分類法を提案する。
さらに、2023年から2025年の間に導入されたAIエージェントフレームワークについて、大規模言語モデルとモジュラーツールキットを統合し、自律的な意思決定とマルチステップ推論を可能にする。
さらに,材料科学,生物医学研究,学術思想,ソフトウェア工学,合成データ生成,化学推論,数学的問題解決,地理情報システム,マルチメディア,医療,ファイナンスにおける自律型AIエージェントの現実的応用について述べる。
次に、主要なエージェント間協調プロトコル、すなわち、エージェント通信プロトコル(ACP)、モデルコンテキストプロトコル(MCP)、エージェント間協調プロトコル(A2A)について調査する。
最後に,先進的な推論戦略,マルチエージェントLLMシステムにおける障害モード,自動科学的発見,強化学習による動的ツール統合,統合検索機能,エージェントプロトコルにおけるセキュリティ脆弱性に着目し,今後の研究の提言について議論する。
関連論文リスト
- OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis [0.0]
本稿では,A2AとMPPを自己実装した新しいモジュール型マルチプロトコールMASフレームワークであるAgentMasterの試験的検討を行う。
このシステムは、技術的専門知識のない自然言語インタラクションをサポートし、マルチモーダルクエリに応答する。
全体として、提案するフレームワークは、MASを利用したドメイン固有、協調的、スケーラブルな対話型AIの可能性に寄与する。
論文 参考訳(メタデータ) (2025-07-08T03:34:26Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications [57.38526350775472]
このチュートリアルは、大規模人工知能モデル(LAM)とエージェントAI技術の原則、設計、応用に関する体系的な紹介を提供する。
我々は,6G通信の背景を概説し,LAMからエージェントAIへの技術的進化を概説し,チュートリアルのモチベーションと主な貢献を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T12:54:07Z) - AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges [0.36868085124383626]
この研究はAIエージェントとエージェントAIを区別し、構造化された概念分類、アプリケーションマッピング、課題分析を提供する。
ジェネレーティブAIは前駆体として位置づけられており、AIエージェントはツールの統合、エンジニアリングの促進、推論の強化を通じて前進している。
エージェントAIシステムは、マルチエージェントコラボレーション、動的タスク分解、永続メモリ、オーケストレーション自律性によって特徴付けられるパラダイムシフトを表している。
論文 参考訳(メタデータ) (2025-05-15T16:21:33Z) - A Survey of AI Agent Protocols [35.431057321412354]
大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。
この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。
LLMエージェントの統一通信プロトコルは、これを変更できる。
論文 参考訳(メタデータ) (2025-04-23T14:07:26Z) - A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。
本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文 参考訳(メタデータ) (2025-04-07T21:01:25Z) - Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。
本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。
私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (2025-03-27T12:50:17Z) - AI Agents: Evolution, Architecture, and Real-World Applications [0.0]
本稿は、AIエージェントの進化、アーキテクチャ、実践的応用を、AIエージェントの初期から、認識、計画、ツール使用のための専用のモジュールを備えた大規模言語モデルを統合した近代的なシステムへ移行する。
論文 参考訳(メタデータ) (2025-03-16T23:07:48Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。
IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。
我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (2025-01-19T14:58:35Z) - Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。
我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文 参考訳(メタデータ) (2024-08-23T23:11:08Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - A Survey on Large Language Model based Autonomous Agents [105.2509166861984]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。
本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。
本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文 参考訳(メタデータ) (2023-08-22T13:30:37Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。