論文の概要: Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction
- arxiv url: http://arxiv.org/abs/2508.05294v1
- Date: Thu, 07 Aug 2025 11:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.839334
- Title: Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction
- Title(参考訳): エージェントAIの身体化に向けて:LLMとVLM駆動型ロボットの自律性とインタラクションのレビューと分類
- Authors: Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta,
- Abstract要約: 大規模言語モデル(LLM)や視覚言語モデル(VLM)を含む基礎モデルは、ロボットの自律性とヒューマンロボットインタフェースに対する新しいアプローチを実現した。
並行して、視覚言語行動モデル(VLA)や大きな行動モデル(BLM)は、ロボットシステムのデクスタリティと能力を高めている。
- 参考スコア(独自算出の注目度): 0.4786416643636131
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as well as more complex system where AI agents are coordinators, planners, perception actors, or generalist interfaces. Such agentic architectures allow robots to reason over natural language instructions, invoke APIs, plan task sequences, or assist in operations and diagnostics. In addition to peer-reviewed research, due to the fast-evolving nature of the field, we highlight and include community-driven projects, ROS packages, and industrial frameworks that show emerging trends. We propose a taxonomy for classifying model integration approaches and present a comparative analysis of the role that agents play in different solutions in today's literature.
- Abstract(参考訳): 大規模言語モデル(LLM)や視覚言語モデル(VLM)を含む基礎モデルは最近、ロボットの自律性とヒューマンロボットインタフェースに対する新しいアプローチを可能にした。
並行して、視覚言語行動モデル(VLA)や大きな行動モデル(BLM)は、ロボットシステムのデクスタリティと能力を高めている。
本調査では,エージェントアプリケーションやアーキテクチャへ進む言葉に焦点を当てる。
また、AIエージェントがコーディネータ、プランナー、知覚アクター、ジェネラリストインターフェースである、より複雑なシステムについても検討している。
このようなエージェントアーキテクチャにより、ロボットは自然言語命令を推論したり、APIを呼び出したり、タスクシーケンスを計画したり、操作や診断を補助することができる。
査読された研究に加えて、この分野の急速な発展の性質から、コミュニティ主導のプロジェクト、ROSパッケージ、新興トレンドを示す産業フレームワークを取り上げ、取り上げる。
本稿では,モデル統合アプローチを分類するための分類法を提案する。
関連論文リスト
- Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。
このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。
本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:58:12Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review [4.540236408836132]
本稿では,モバイルサービスロボティクスにおける基礎モデルの統合に関する最初の体系的なレビューを紹介する。
本稿では, リアルタイムセンサ融合, 言語条件制御, 適応タスク実行におけるそのようなモデルの役割について検討する。
また、国内援助、医療、サービス自動化分野における現実世界の応用についても論じる。
論文 参考訳(メタデータ) (2025-05-26T20:08:09Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges [0.36868085124383626]
この研究はAIエージェントとエージェントAIを区別し、構造化された概念分類、アプリケーションマッピング、課題分析を提供する。
ジェネレーティブAIは前駆体として位置づけられており、AIエージェントはツールの統合、エンジニアリングの促進、推論の強化を通じて前進している。
エージェントAIシステムは、マルチエージェントコラボレーション、動的タスク分解、永続メモリ、オーケストレーション自律性によって特徴付けられるパラダイムシフトを表している。
論文 参考訳(メタデータ) (2025-05-15T16:21:33Z) - Internet of Agents: Fundamentals, Applications, and Challenges [66.44234034282421]
異種エージェント間のシームレスな相互接続、動的発見、協調的なオーケストレーションを可能にする基盤となるフレームワークとして、エージェントのインターネット(IoA)を紹介した。
我々は,機能通知と発見,適応通信プロトコル,動的タスクマッチング,コンセンサスとコンフリクト解決機構,インセンティブモデルなど,IoAの重要な運用イネーラを分析した。
論文 参考訳(メタデータ) (2025-05-12T02:04:37Z) - Vision-Language-Action Models: Concepts, Progress, Applications and Challenges [4.180065442680541]
Vision-Language-Actionモデルは、知覚、自然言語理解、実施された行動を単一の計算フレームワーク内で統一することを目的としている。
この基礎的なレビューは、ビジョン・ランゲージ・アクションモデルにおける最近の進歩の包括的合成を提示する。
主要な進歩分野は、アーキテクチャの革新、パラメータ効率のトレーニング戦略、リアルタイム推論アクセラレーションである。
論文 参考訳(メタデータ) (2025-05-07T19:46:43Z) - Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。
本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。
私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (2025-03-27T12:50:17Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。