論文の概要: Designing Memory-Augmented AR Agents for Spatiotemporal Reasoning in Personalized Task Assistance
- arxiv url: http://arxiv.org/abs/2508.08774v1
- Date: Tue, 12 Aug 2025 09:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.363015
- Title: Designing Memory-Augmented AR Agents for Spatiotemporal Reasoning in Personalized Task Assistance
- Title(参考訳): パーソナライズされたタスクアシストにおける時空間推論のためのメモリ拡張ARエージェントの設計
- Authors: Dongwook Choi, Taeyoon Kwon, Dongil Yang, Hyojun Kim, Jinyoung Yeo,
- Abstract要約: Augmented Reality (AR) システムは、よりコンテキスト対応で適応的なユーザエクスペリエンスを提供するために、Multimodal Large Language Models (LMML) のような基礎モデルの統合がますます進んでいる。
現在のARエージェントは、ユーザの長期的な経験や好みを理解し、活用する必要がある複雑なマルチステップシナリオに苦労している。
本稿では、ユーザ固有の体験から学習し、時間とともに適応することによって、パーソナライズされたタスク支援を提供する、メモリ拡張ARエージェントの概念的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.949076093851654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Augmented Reality (AR) systems are increasingly integrating foundation models, such as Multimodal Large Language Models (MLLMs), to provide more context-aware and adaptive user experiences. This integration has led to the development of AR agents to support intelligent, goal-directed interactions in real-world environments. While current AR agents effectively support immediate tasks, they struggle with complex multi-step scenarios that require understanding and leveraging user's long-term experiences and preferences. This limitation stems from their inability to capture, retain, and reason over historical user interactions in spatiotemporal contexts. To address these challenges, we propose a conceptual framework for memory-augmented AR agents that can provide personalized task assistance by learning from and adapting to user-specific experiences over time. Our framework consists of four interconnected modules: (1) Perception Module for multimodal sensor processing, (2) Memory Module for persistent spatiotemporal experience storage, (3) Spatiotemporal Reasoning Module for synthesizing past and present contexts, and (4) Actuator Module for effective AR communication. We further present an implementation roadmap, a future evaluation strategy, a potential target application and use cases to demonstrate the practical applicability of our framework across diverse domains. We aim for this work to motivate future research toward developing more intelligent AR systems that can effectively bridge user's interaction history with adaptive, context-aware task assistance.
- Abstract(参考訳): 拡張現実(AR)システムは、よりコンテキスト対応で適応的なユーザエクスペリエンスを提供するために、MLLM(Multimodal Large Language Models)のような基盤モデルの統合がますます進んでいる。
この統合により、現実世界の環境におけるインテリジェントでゴール指向のインタラクションをサポートするARエージェントの開発につながった。
現在のARエージェントは即時タスクを効果的にサポートしていますが、ユーザの長期的な経験や好みを理解し、活用する必要のある複雑なマルチステップシナリオに苦労しています。
この制限は、時空間における歴史的なユーザインタラクションを捉え、保持し、理性的に説明できないことに起因する。
これらの課題に対処するために、メモリ拡張ARエージェントの概念フレームワークを提案し、時間とともにユーザ固有の体験から学び、適応することによって、パーソナライズされたタスクアシストを提供する。
本フレームワークは,(1)マルチモーダルセンサ処理用知覚モジュール,(2)持続時空間記憶用記憶モジュール,(3)過去と現在を合成するための時空間推論モジュール,(4)効果的なAR通信用アクチュエータモジュールの4つの相互接続モジュールから構成される。
さらに、実装ロードマップ、将来の評価戦略、潜在的なターゲットアプリケーション、そして様々なドメインにわたるフレームワークの実践的適用性を実証するためのユースケースを提示する。
本研究の目的は、ユーザのインタラクション履歴を適応的でコンテキスト対応のタスクアシストで効果的に橋渡しできる、よりインテリジェントなARシステムの開発に向けた将来の研究を動機付けることである。
関連論文リスト
- GoalfyMax: A Protocol-Driven Multi-Agent System for Intelligent Experience Entities [4.406205045227101]
私たちは、エンドツーエンドのマルチエージェントコラボレーションのためのプロトコル駆動フレームワークであるGoalfyMaxを紹介します。
GoalfyMax が Model Context Protocol (MCP) 上に構築された標準化された Agent-to-Agent (A2A) 通信層を導入
Experience Pack(XP)アーキテクチャは、タスクの合理性と実行トレースの両方を保存する階層型メモリシステムである。
論文 参考訳(メタデータ) (2025-07-13T05:13:52Z) - Lifelong Learning of Large Language Model based Agents: A Roadmap [39.01532420650279]
連続的・漸進的な学習として知られる生涯学習は、人工知能(AGI)を前進させる重要な要素である
この調査は、生涯学習を大規模言語モデル(LLM)に組み込むための潜在的テクニックを体系的にまとめる最初のものである。
これらの柱が集合的に連続的な適応を可能にし、破滅的な忘れを軽減し、長期的なパフォーマンスを向上させる方法について強調する。
論文 参考訳(メタデータ) (2025-01-13T12:42:04Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - RecallM: An Adaptable Memory Mechanism with Temporal Understanding for
Large Language Models [3.9770715318303353]
RecallMは、適応可能で拡張可能な長期記憶機構を備えた大規模言語モデルを提供するための新しいアーキテクチャである。
RecallM は,長期記憶に格納された知識を更新するためのベクトルデータベースよりも 4 倍有効であることを示す。
また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて、競合性能を示すことを示した。
論文 参考訳(メタデータ) (2023-07-06T02:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。