論文の概要: A Grounded Memory System For Smart Personal Assistants
- arxiv url: http://arxiv.org/abs/2505.06328v1
- Date: Fri, 09 May 2025 10:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.790051
- Title: A Grounded Memory System For Smart Personal Assistants
- Title(参考訳): スマートパーソナルアシスタントのためのグラウンドドメモリシステム
- Authors: Felix Ocker, Jörg Deigmöller, Pavel Smirnov, Julian Eggert,
- Abstract要約: 認知アシスタントから認知症患者のためのロボティクスまで、さまざまなエージェントAIアプリケーションは、現実に根ざした堅牢なメモリシステムを必要としている。
本稿では,3つのコンポーネントからなるメモリシステムを提案する。
まず、画像キャプションのためのビジョン言語モデルと、認識中の一貫した情報抽出のための大規模言語モデルを組み合わせる。
次に、抽出した情報をベクトル埋め込みにより強化された知識グラフからなるメモリに表現し、関係情報を効率的に管理する。
第3に,質問応答のための意味探索とグラフクエリ生成をRetrieval Augmented Generationを介して組み合わせる。
- 参考スコア(独自算出の注目度): 1.5267291767316298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide variety of agentic AI applications - ranging from cognitive assistants for dementia patients to robotics - demand a robust memory system grounded in reality. In this paper, we propose such a memory system consisting of three components. First, we combine Vision Language Models for image captioning and entity disambiguation with Large Language Models for consistent information extraction during perception. Second, the extracted information is represented in a memory consisting of a knowledge graph enhanced by vector embeddings to efficiently manage relational information. Third, we combine semantic search and graph query generation for question answering via Retrieval Augmented Generation. We illustrate the system's working and potential using a real-world example.
- Abstract(参考訳): 認知アシスタントから認知症患者のためのロボティクスまで、さまざまなエージェントAIアプリケーションは、現実に根ざした堅牢なメモリシステムを必要としている。
本稿では,3つのコンポーネントからなるメモリシステムを提案する。
まず、画像キャプションのためのビジョン言語モデルと、認識中の一貫した情報抽出のための大規模言語モデルを組み合わせる。
次に、抽出した情報をベクトル埋め込みにより強化された知識グラフからなるメモリに表現し、関係情報を効率的に管理する。
第3に,質問応答のための意味探索とグラフクエリ生成をRetrieval Augmented Generationを介して組み合わせる。
実世界の例を使って、システムの動作と可能性を説明します。
関連論文リスト
- Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs [34.361000444808454]
メモリは情報をエンコードし、保存し、検索するプロセスである。
大規模言語モデル(LLM)の時代において、メモリとは、AIシステムが過去のインタラクションからの情報を保持し、リコールし、使用し、将来の応答とインタラクションを改善する能力である。
論文 参考訳(メタデータ) (2025-04-22T15:05:04Z) - DEMENTIA-PLAN: An Agent-Based Framework for Multi-Knowledge Graph Retrieval-Augmented Generation in Dementia Care [3.9891568002886766]
本稿では,DementIA-PLANを提案する。
本モデルは,多次元知識表現を統合した多次元知識グラフアーキテクチャを用いている。
私たちの注目すべき革新は、知識検索と意味統合を協調する自己回帰計画エージェントです。
論文 参考訳(メタデータ) (2025-03-26T19:34:04Z) - 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。