論文の概要: A Grounded Memory System For Smart Personal Assistants
- arxiv url: http://arxiv.org/abs/2505.06328v1
- Date: Fri, 09 May 2025 10:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.790051
- Title: A Grounded Memory System For Smart Personal Assistants
- Title(参考訳): スマートパーソナルアシスタントのためのグラウンドドメモリシステム
- Authors: Felix Ocker, Jörg Deigmöller, Pavel Smirnov, Julian Eggert,
- Abstract要約: 認知アシスタントから認知症患者のためのロボティクスまで、さまざまなエージェントAIアプリケーションは、現実に根ざした堅牢なメモリシステムを必要としている。
本稿では,3つのコンポーネントからなるメモリシステムを提案する。
まず、画像キャプションのためのビジョン言語モデルと、認識中の一貫した情報抽出のための大規模言語モデルを組み合わせる。
次に、抽出した情報をベクトル埋め込みにより強化された知識グラフからなるメモリに表現し、関係情報を効率的に管理する。
第3に,質問応答のための意味探索とグラフクエリ生成をRetrieval Augmented Generationを介して組み合わせる。
- 参考スコア(独自算出の注目度): 1.5267291767316298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide variety of agentic AI applications - ranging from cognitive assistants for dementia patients to robotics - demand a robust memory system grounded in reality. In this paper, we propose such a memory system consisting of three components. First, we combine Vision Language Models for image captioning and entity disambiguation with Large Language Models for consistent information extraction during perception. Second, the extracted information is represented in a memory consisting of a knowledge graph enhanced by vector embeddings to efficiently manage relational information. Third, we combine semantic search and graph query generation for question answering via Retrieval Augmented Generation. We illustrate the system's working and potential using a real-world example.
- Abstract(参考訳): 認知アシスタントから認知症患者のためのロボティクスまで、さまざまなエージェントAIアプリケーションは、現実に根ざした堅牢なメモリシステムを必要としている。
本稿では,3つのコンポーネントからなるメモリシステムを提案する。
まず、画像キャプションのためのビジョン言語モデルと、認識中の一貫した情報抽出のための大規模言語モデルを組み合わせる。
次に、抽出した情報をベクトル埋め込みにより強化された知識グラフからなるメモリに表現し、関係情報を効率的に管理する。
第3に,質問応答のための意味探索とグラフクエリ生成をRetrieval Augmented Generationを介して組み合わせる。
実世界の例を使って、システムの動作と可能性を説明します。
関連論文リスト
- From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs [34.361000444808454]
メモリは情報をエンコードし、保存し、検索するプロセスである。
大規模言語モデル(LLM)の時代において、メモリとは、AIシステムが過去のインタラクションからの情報を保持し、リコールし、使用し、将来の応答とインタラクションを改善する能力である。
論文 参考訳(メタデータ) (2025-04-22T15:05:04Z) - DEMENTIA-PLAN: An Agent-Based Framework for Multi-Knowledge Graph Retrieval-Augmented Generation in Dementia Care [3.9891568002886766]
本稿では,DementIA-PLANを提案する。
本モデルは,多次元知識表現を統合した多次元知識グラフアーキテクチャを用いている。
私たちの注目すべき革新は、知識検索と意味統合を協調する自己回帰計画エージェントです。
論文 参考訳(メタデータ) (2025-03-26T19:34:04Z) - 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。