論文の概要: ROSBag MCP Server: Analyzing Robot Data with LLMs for Agentic Embodied AI Applications
- arxiv url: http://arxiv.org/abs/2511.03497v1
- Date: Wed, 05 Nov 2025 14:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.445662
- Title: ROSBag MCP Server: Analyzing Robot Data with LLMs for Agentic Embodied AI Applications
- Title(参考訳): ROSBag MCP Server:エージェント・エボダイドAIアプリケーションのためのLLMを用いたロボットデータの解析
- Authors: Lei Fu, Sahar Salimpour, Leonardo Militano, Harry Edelman, Jorge Peña Queralta, Giovanni Toffetti,
- Abstract要約: 本稿では,ROS とROS 2 のバッグを解析するための MCP サーバを提案する。
ロボット分野の知識を用いて構築された具体的ツールについて述べる。
私たちは、異なるLLMでツールのベンチマークを可能にする軽量なUIを提供しています。
- 参考スコア(独自算出の注目度): 3.6612128399302484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agentic AI systems and Physical or Embodied AI systems have been two key research verticals at the forefront of Artificial Intelligence and Robotics, with Model Context Protocol (MCP) increasingly becoming a key component and enabler of agentic applications. However, the literature at the intersection of these verticals, i.e., Agentic Embodied AI, remains scarce. This paper introduces an MCP server for analyzing ROS and ROS 2 bags, allowing for analyzing, visualizing and processing robot data with natural language through LLMs and VLMs. We describe specific tooling built with robotics domain knowledge, with our initial release focused on mobile robotics and supporting natively the analysis of trajectories, laser scan data, transforms, or time series data. This is in addition to providing an interface to standard ROS 2 CLI tools ("ros2 bag list" or "ros2 bag info"), as well as the ability to filter bags with a subset of topics or trimmed in time. Coupled with the MCP server, we provide a lightweight UI that allows the benchmarking of the tooling with different LLMs, both proprietary (Anthropic, OpenAI) and open-source (through Groq). Our experimental results include the analysis of tool calling capabilities of eight different state-of-the-art LLM/VLM models, both proprietary and open-source, large and small. Our experiments indicate that there is a large divide in tool calling capabilities, with Kimi K2 and Claude Sonnet 4 demonstrating clearly superior performance. We also conclude that there are multiple factors affecting the success rates, from the tool description schema to the number of arguments, as well as the number of tools available to the models. The code is available with a permissive license at https://github.com/binabik-ai/mcp-rosbags.
- Abstract(参考訳): エージェントAIシステムと物理的または身体的AIシステムは、人工知能とロボティクスの最前線における2つの重要な研究分野であり、モデルコンテキストプロトコル(MCP)がエージェントアプリケーションの重要コンポーネントおよび有効化要因になりつつある。
しかし、これらの分野の交差点にある文献、すなわちエージェント・エンボディード・AI(Agentic Embodied AI)は依然として乏しい。
本稿では,ROS とROS 2 のバッグを解析し,LLM と VLM による自然言語によるロボットデータの解析,可視化,処理を行う MCP サーバを提案する。
ロボット分野の知識で構築された特定のツールについて説明する。最初のリリースでは、モバイルロボティクスに焦点を当て、トラジェクトリ、レーザースキャンデータ、変換、時系列データの解析をネイティブにサポートしています。
さらに、標準のROS 2 CLIツール("ros2 bag list"や"ros2 bag info")へのインターフェースや、トピックのサブセットでバッグをフィルタリングしたり、時間を短縮したりすることができる。
MCPサーバと組み合わせることで、プロプライエタリな(Anthropic、OpenAI)とオープンソース(Groqを通じて)の両方の異なるLLMで、ツーリングのベンチマークを可能にする軽量なUIを提供します。
実験結果では,8種類のLLM/VLMモデルに対して,プロプライエタリおよびオープンソース,大規模,小型のツールコール機能の解析を行った。
K2 と Claude Sonnet 4 は明らかに優れた性能を示している。
また、ツール記述スキーマから引数の数、モデルで利用可能なツールの数まで、成功率に影響を与える要因が複数あると結論付けました。
コードはhttps://github.com/binabik-ai/mcp-rosbags.comでパーミッシブライセンスで提供されている。
関連論文リスト
- SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark [6.470909719300937]
Model Context Protocol(MCP)は、AI Agentにコンテキストを供給する標準化された方法を提供する。
LLMとAI AgentsのMPPツール使用能力の評価にはいくつかの問題がある。
大規模マルチドメインAIエージェントツールのベンチマークであるMPPToolBench++を提案する。
論文 参考訳(メタデータ) (2025-08-11T03:16:02Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。
我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。
以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文 参考訳(メタデータ) (2024-06-28T07:09:06Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。