論文の概要: Bridging Bots: from Perception to Action via Multimodal-LMs and Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2507.09617v1
- Date: Sun, 13 Jul 2025 12:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.653324
- Title: Bridging Bots: from Perception to Action via Multimodal-LMs and Knowledge Graphs
- Title(参考訳): ブリジングボット:マルチモーダル・LMと知識グラフによる知覚から行動へ
- Authors: Margherita Martorana, Francesca Urgese, Mark Adamik, Ilaria Tiddi,
- Abstract要約: サービスロボットは、家庭環境における日々の生活を支援するために配備される。
現在のシステムは、特定のハードウェアとソフトウェアに結びついた、プロプライエタリでハードコードされたソリューションに依存している。
オントロジと知識グラフ(KG)は、システム間の相互運用性を実現するソリューションを提供する。
- 参考スコア(独自算出の注目度): 1.4624458429745086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personal service robots are deployed to support daily living in domestic environments, particularly for elderly and individuals requiring assistance. These robots must perceive complex and dynamic surroundings, understand tasks, and execute context-appropriate actions. However, current systems rely on proprietary, hard-coded solutions tied to specific hardware and software, resulting in siloed implementations that are difficult to adapt and scale across platforms. Ontologies and Knowledge Graphs (KGs) offer a solution to enable interoperability across systems, through structured and standardized representations of knowledge and reasoning. However, symbolic systems such as KGs and ontologies struggle with raw and noisy sensory input. In contrast, multimodal language models are well suited for interpreting input such as images and natural language, but often lack transparency, consistency, and knowledge grounding. In this work, we propose a neurosymbolic framework that combines the perceptual strengths of multimodal language models with the structured representations provided by KGs and ontologies, with the aim of supporting interoperability in robotic applications. Our approach generates ontology-compliant KGs that can inform robot behavior in a platform-independent manner. We evaluated this framework by integrating robot perception data, ontologies, and five multimodal models (three LLaMA and two GPT models), using different modes of neural-symbolic interaction. We assess the consistency and effectiveness of the generated KGs across multiple runs and configurations, and perform statistical analyzes to evaluate performance. Results show that GPT-o1 and LLaMA 4 Maverick consistently outperform other models. However, our findings also indicate that newer models do not guarantee better results, highlighting the critical role of the integration strategy in generating ontology-compliant KGs.
- Abstract(参考訳): 個人サービスロボットは、特に高齢者や支援を必要とする個人のために、家庭環境における日々の生活を支援するために配備される。
これらのロボットは複雑でダイナミックな環境を認識し、タスクを理解し、コンテキストに適したアクションを実行する必要がある。
しかし、現在のシステムは、特定のハードウェアとソフトウェアに結びついた、プロプライエタリでハードコードされたソリューションに依存しており、結果としてプラットフォーム間の適応とスケールが難しいサイロ化された実装となる。
オントロジと知識グラフ(KG)は、知識と推論の構造的および標準化された表現を通じて、システム間の相互運用性を実現するソリューションを提供する。
しかし、KGsやオントロジーのような記号体系は、生でノイズの多い感覚入力に苦しむ。
対照的に、マルチモーダル言語モデルは画像や自然言語などの入力を解釈するのに適しているが、透明性、一貫性、知識基盤を欠いていることが多い。
本研究では,多モーダル言語モデルの知覚的強みと,KGやオントロジーが提供する構造的表現を組み合わせ,ロボットアプリケーションの相互運用を支援するニューロシンボリックフレームワークを提案する。
本手法は,プラットフォームに依存しない方法でロボットの動作を知らせる,オントロジーに準拠したKGを生成する。
ロボット認識データ,オントロジー,および5つのマルチモーダルモデル(3つのLLaMAと2つのGPTモデル)をニューラルシンボリック相互作用の異なるモードを用いて統合することにより,この枠組みを評価した。
複数の実行と構成で生成したKGの一貫性と有効性を評価し、統計的解析を行い、性能を評価する。
その結果, GPT-o1 と LLaMA 4 Maverick が他のモデルより一貫して優れていた。
しかし,本研究では,新しいモデルではより良い結果が得られず,オントロジーに準拠するKGの生成において統合戦略が重要な役割を担っていることも示唆した。
関連論文リスト
- Vision Language Action Models in Robotic Manipulation: A Systematic Review [1.1767330101986737]
ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。
本稿では,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
論文 参考訳(メタデータ) (2025-07-14T18:00:34Z) - How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction? [9.094835948226063]
ジェスチャーは、アジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。
従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。
Vision Foundation Models (VFMs) と Vision Language Models (VLMs) は、その強力な一般化能力によって、システムの複雑さを減らす可能性がある。
本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベース)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。
論文 参考訳(メタデータ) (2025-06-25T19:36:45Z) - Multi-Agent Systems for Robotic Autonomy with LLMs [7.113794752528622]
このフレームワークには、タスクアナリスト、ロボットデザイナ、強化学習デザイナの3つのコアエージェントが含まれている。
提案システムでは,適切なタスク入力が提供された場合に,制御戦略で実現可能なロボットを設計できることが実証された。
論文 参考訳(メタデータ) (2025-05-09T03:52:37Z) - Connecting the geometry and dynamics of many-body complex systems with message passing neural operators [1.8434042562191815]
我々は,多体複雑なシステムのマルチスケール進化演算子を学習するためのスケーラブルなAIフレームワークであるROMAを紹介する。
注意機構は局所部分グラフの幾何学的表現と動的演算子の接続によるマルチスケール相互作用のモデル化に使用される。
我々はROMAフレームワークが予測タスクと効果的な動的タスク間のスケーラビリティとポジティブな転送を改善することを実証した。
論文 参考訳(メタデータ) (2025-02-21T20:04:09Z) - Mechanistic understanding and validation of large AI models with SemanticLens [13.712668314238082]
航空機のような人間工学的なシステムとは異なり、AIモデルの内部動作はほとんど不透明である。
本稿では、コンポーネントによって符号化された隠れた知識をマッピングするニューラルネットワークの普遍的説明法であるSemanticLensを紹介する。
論文 参考訳(メタデータ) (2025-01-09T17:47:34Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。