論文の概要: EmbodiedLGR: Integrating Lightweight Graph Representation and Retrieval for Semantic-Spatial Memory in Robotic Agents
- arxiv url: http://arxiv.org/abs/2604.18271v1
- Date: Mon, 20 Apr 2026 13:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.911458
- Title: EmbodiedLGR: Integrating Lightweight Graph Representation and Retrieval for Semantic-Spatial Memory in Robotic Agents
- Title(参考訳): EmbodiedLGR:ロボットエージェントにおける意味空間記憶のための軽量グラフ表現と検索
- Authors: Paolo Riva, Leonardo Gargani, Matteo Frosi, Matteo Matteucci,
- Abstract要約: EmbodiedLGR-Agentは、ロボットの動作環境の高密度かつ効率的な表現を構築する視覚言語モデル(VLM)駆動のエージェントアーキテクチャである。
EmbodiedLGR-Agentは、一般的なNaVQAデータセットに基づいて評価され、推論における最先端のパフォーマンスと、エンボディエージェントのクエリ時間を達成する。
- 参考スコア(独自算出の注目度): 7.142235510048155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the world of agentic artificial intelligence applied to robotics evolves, the need for agents capable of building and retrieving memories and observations efficiently is increasing. Robots operating in complex environments must build memory structures to enable useful human-robot interactions by leveraging the mnemonic representation of the current operating context. People interacting with robots may expect the embodied agent to provide information about locations, events, or objects, which requires the agent to provide precise answers within human-like inference times to be perceived as responsive. We propose the Embodied Light Graph Retrieval Agent (EmbodiedLGR-Agent), a visual-language model (VLM)-driven agent architecture that constructs dense and efficient representations of robot operating environments. EmbodiedLGR-Agent directly addresses the need for an efficient memory representation of the environment by providing a hybrid building-retrieval approach built on parameter-efficient VLMs that store low-level information about objects and their positions in a semantic graph, while retaining high-level descriptions of the observed scenes with a traditional retrieval-augmented architecture. EmbodiedLGR-Agent is evaluated on the popular NaVQA dataset, achieving state-of-the-art performance in inference and querying times for embodied agents, while retaining competitive accuracy on the global task relative to the current state-of-the-art approaches. Moreover, EmbodiedLGR-Agent was successfully deployed on a physical robot, showing practical utility in real-world contexts through human-robot interaction, while running the visual-language model and the building-retrieval pipeline locally.
- Abstract(参考訳): ロボット工学に応用されるエージェント人工知能の世界が発展するにつれて、記憶と観察を効率的に構築・回収できるエージェントの必要性が高まっている。
複雑な環境で動作しているロボットは、現在の動作コンテキストの調和表現を活用することで、人間とロボットの対話に有用なメモリ構造を構築する必要がある。
ロボットと対話する人々は、エンボディされたエージェントが場所、イベント、またはオブジェクトに関する情報を提供するのを期待するかもしれない。
本稿では,ロボット動作環境の高密度かつ効率的な表現を構築する視覚モデル(VLM)駆動エージェントアーキテクチャであるEmbodied Light Graph Retrieval Agent (EmbodiedLGR-Agent)を提案する。
EmbodiedLGR-Agentは、オブジェクトとその位置に関する低レベル情報をセマンティックグラフに格納するパラメータ効率のよいVLM上に構築されたハイブリッドなビルディング-検索アプローチを提供することで、環境の効率的なメモリ表現の必要性に直接対処する。
EmbodiedLGR-Agentは、一般的なNaVQAデータセットに基づいて評価され、現在の最先端アプローチと比較して、グローバルタスクの競合精度を維持しながら、推論およびクエリ時間における最先端のパフォーマンスを達成する。
さらに、EmbodiedLGR-Agentは物理的ロボットへの展開に成功し、ビジュアル言語モデルとビル-検索パイプラインをローカルで実行しながら、人間とロボットのインタラクションを通じて現実のコンテキストで実用性を示す。
関連論文リスト
- Hi-Dyna Graph: Hierarchical Dynamic Scene Graph for Robotic Autonomy in Human-Centric Environments [41.80879866951797]
Hi-Dyna Graphは階層的な動的シーングラフアーキテクチャで、永続的なグローバルレイアウトと局所的な動的セマンティクスを統合し、ロボットの自律性を具現化する。
大型言語モデル(LLM)を利用したエージェントを用いて、統一されたグラフを解釈し、遅延タスクトリガーを推論し、ロボットの余裕に基づいて実行可能な命令を生成する。
論文 参考訳(メタデータ) (2025-05-30T03:35:29Z) - RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot [0.8515309662618664]
本稿では,人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを提案する。
アーキテクチャはLarge Language Modelsを使用して、自然言語コマンドを含む多様な情報ソースを統合する。
このアーキテクチャは、動的環境における適応性、タスク効率、人間とロボットのコラボレーションを強化する。
論文 参考訳(メタデータ) (2024-11-22T15:58:26Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Enhancing Graph Representation of the Environment through Local and
Cloud Computation [2.9465623430708905]
複数の情報源からロボット環境のセマンティックな表現を提供するグラフベースの表現を提案する。
環境から情報を取得するために、このフレームワークは古典的なコンピュータビジョンツールと現代のコンピュータビジョンクラウドサービスを組み合わせる。
提案手法により、小さなオブジェクトも処理し、環境の意味表現に統合することが可能になる。
論文 参考訳(メタデータ) (2023-09-22T08:05:32Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。