論文の概要: From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2504.19678v1
- Date: Mon, 28 Apr 2025 11:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.408328
- Title: From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review
- Title(参考訳): LLM推論から自律型AIエージェントへ:総合的なレビュー
- Authors: Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah,
- Abstract要約: 大規模言語モデルと自律型AIエージェントを評価するベンチマークを2019年から2025年にかけて開発した。
本稿では,知識推論,数学的問題解決,コード生成とソフトウェア工学,事実的根拠と検索,ドメイン固有評価,マルチモーダルおよび具体的タスク,タスクオーケストレーション,インタラクティブアセスメントを対象とする約60のベンチマークの分類法を提案する。
我々は、材料科学、バイオメディカルリサーチ、学術思想、ソフトウェア工学、合成データ生成、数学的問題解決、地理情報システム、マルチメディア、医療、金融における自律型AIエージェントの現実的な応用を提示する。
- 参考スコア(独自算出の注目度): 1.4929298667651645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models and autonomous AI agents have evolved rapidly, resulting in a diverse array of evaluation benchmarks, frameworks, and collaboration protocols. However, the landscape remains fragmented and lacks a unified taxonomy or comprehensive survey. Therefore, we present a side-by-side comparison of benchmarks developed between 2019 and 2025 that evaluate these models and agents across multiple domains. In addition, we propose a taxonomy of approximately 60 benchmarks that cover general and academic knowledge reasoning, mathematical problem-solving, code generation and software engineering, factual grounding and retrieval, domain-specific evaluations, multimodal and embodied tasks, task orchestration, and interactive assessments. Furthermore, we review AI-agent frameworks introduced between 2023 and 2025 that integrate large language models with modular toolkits to enable autonomous decision-making and multi-step reasoning. Moreover, we present real-world applications of autonomous AI agents in materials science, biomedical research, academic ideation, software engineering, synthetic data generation, chemical reasoning, mathematical problem-solving, geographic information systems, multimedia, healthcare, and finance. We then survey key agent-to-agent collaboration protocols, namely the Agent Communication Protocol (ACP), the Model Context Protocol (MCP), and the Agent-to-Agent Protocol (A2A). Finally, we discuss recommendations for future research, focusing on advanced reasoning strategies, failure modes in multi-agent LLM systems, automated scientific discovery, dynamic tool integration via reinforcement learning, integrated search capabilities, and security vulnerabilities in agent protocols.
- Abstract(参考訳): 大規模言語モデルと自律型AIエージェントは急速に進化し、さまざまな評価ベンチマーク、フレームワーク、コラボレーションプロトコルが生まれている。
しかし、景観は断片化されており、統合された分類学や総合的な調査が欠けている。
そこで、2019年から2025年の間に開発されたベンチマークを並べて比較し、これらのモデルとエージェントを複数のドメインにわたって評価する。
さらに, 一般的な知識推論, 数学的問題解決, コード生成, ソフトウェア工学, 実地検索, ドメイン固有評価, マルチモーダルおよび具体的タスク, タスクオーケストレーション, インタラクティブアセスメントを対象とする, 約60のベンチマークの分類法を提案する。
さらに、2023年から2025年の間に導入されたAIエージェントフレームワークについて、大規模言語モデルとモジュラーツールキットを統合し、自律的な意思決定とマルチステップ推論を可能にする。
さらに,材料科学,生物医学研究,学術思想,ソフトウェア工学,合成データ生成,化学推論,数学的問題解決,地理情報システム,マルチメディア,医療,ファイナンスにおける自律型AIエージェントの現実的応用について述べる。
次に、主要なエージェント間協調プロトコル、すなわち、エージェント通信プロトコル(ACP)、モデルコンテキストプロトコル(MCP)、エージェント間協調プロトコル(A2A)について調査する。
最後に,先進的な推論戦略,マルチエージェントLLMシステムにおける障害モード,自動科学的発見,強化学習による動的ツール統合,統合検索機能,エージェントプロトコルにおけるセキュリティ脆弱性に着目し,今後の研究の提言について議論する。
関連論文リスト
- A Survey of AI Agent Protocols [35.431057321412354]
大きな言語モデル(LLM)エージェントが外部ツールやデータソースと通信する標準的な方法はありません。
この標準化されたプロトコルの欠如は、エージェントが協力したり、効果的にスケールするのを難しくする。
LLMエージェントの統一通信プロトコルは、これを変更できる。
論文 参考訳(メタデータ) (2025-04-23T14:07:26Z) - A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。
本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文 参考訳(メタデータ) (2025-04-07T21:01:25Z) - Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。
本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。
私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (2025-03-27T12:50:17Z) - AI Agents: Evolution, Architecture, and Real-World Applications [0.0]
本稿は、AIエージェントの進化、アーキテクチャ、実践的応用を、AIエージェントの初期から、認識、計画、ツール使用のための専用のモジュールを備えた大規模言語モデルを統合した近代的なシステムへ移行する。
論文 参考訳(メタデータ) (2025-03-16T23:07:48Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。
IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。
我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (2025-01-19T14:58:35Z) - Optimizing Collaboration of LLM based Agents for Finite Element Analysis [1.5039745292757671]
本稿では,Large Language Models (LLM) 内の複数のエージェント間の相互作用について,プログラミングおよびコーディングタスクの文脈で検討する。
我々はAutoGenフレームワークを利用してエージェント間の通信を容易にし、各セットアップの40のランダムランからの成功率に基づいて異なる構成を評価する。
論文 参考訳(メタデータ) (2024-08-23T23:11:08Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - A Survey on Large Language Model based Autonomous Agents [105.2509166861984]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。
本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。
本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文 参考訳(メタデータ) (2023-08-22T13:30:37Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。