論文の概要: Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
- arxiv url: http://arxiv.org/abs/2605.26256v1
- Date: Mon, 25 May 2026 18:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.362937
- Title: Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
- Title(参考訳): 長期ユーザインタラクションによるマルチモーダル大規模言語モデルエージェントのパーソナライズ
- Authors: Jeongeun Lee, Chanyoung Park, Dongha Lee,
- Abstract要約: POLARは、長期のユーザインタラクションに対してパーソナライズされたエンボディエージェントのための、メモリ拡張フレームワークである。
実施タスクを実行するために、POLARは関連するメモリを取得して現在の要求を解釈し、タスクの実行をガイドする。
提案したメモリ機構は,事前のインタラクションに蓄積した情報をより効果的に活用することにより,性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 17.9008221917999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language model (MLLM)-based embodied agents have shown strong potential for solving complex tasks in physical environments. However, personalized assistance requires more than following generic instruction or recognizing object categories. In real-world scenarios, the intended target is often specified only implicitly through prior interactions, requiring agents to leverage personalized context accumulated over time. In this work, we propose POLAR, a multiomodal memory-augmented framework for personalized embodied agents over long-term user interactions. POLAR organizes prior interactions into a multimodal knowledge graph that captures semantic memory for personalized context and visual concepts, and episodic memory for embodied experiences such as agent trajectories. To execute embodied tasks, POLAR retrieves relevant memories to interpret the current request and guide task execution. We evaluate POLAR across multiple MLLM backbones and diverse evaluation scenarios to study the role of memory in long-term personalization. Results show that the proposed memory mechanism consistently improves performance by enabling more effective use of information accumulated over prior interactions. The gains are especially pronounced when the agents are required to reason across multiple interactions, perform multi-hop inference, or tracking updates in user-specific context over time.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)に基づくエンボディエージェントは,物理環境における複雑なタスクを解く強力な可能性を示している。
しかし、パーソナライズされた支援は、汎用的な命令に従うことや、オブジェクトカテゴリを認識すること以上のものを必要としている。
現実のシナリオでは、意図されたターゲットは、事前のインタラクションを通じて暗黙的にのみ指定されることが多く、エージェントは時間とともに蓄積されたパーソナライズされたコンテキストを活用する必要がある。
本研究では,POLARを提案する。POLARは,長期的ユーザインタラクションに対してパーソナライズされたエンボディエージェントのためのマルチモーダルメモリ拡張フレームワークである。
POLARは、事前のインタラクションを、パーソナライズされたコンテキストや視覚概念のセマンティックメモリをキャプチャするマルチモーダルな知識グラフと、エージェントの軌跡のような具体化された体験のためのエピソードメモリに整理する。
実施タスクを実行するために、POLARは関連するメモリを取得して現在の要求を解釈し、タスクの実行をガイドする。
複数のMLLMバックボーンにまたがるPOLARの評価と,長期的パーソナライゼーションにおける記憶の役割を検討するための多様な評価シナリオについて検討した。
提案したメモリ機構は,事前のインタラクションに蓄積した情報をより効果的に活用することにより,性能を継続的に向上することを示す。
エージェントが複数のインタラクションを合理化したり、マルチホップ推論を実行したり、時間とともにユーザ固有のコンテキストの更新を追跡する必要がある場合、特に利得は顕著である。
関連論文リスト
- VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions [63.13827503828231]
我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。
結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
論文 参考訳(メタデータ) (2026-05-26T15:07:38Z) - PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - RGMem: Renormalization Group-based Memory Evolution for Language Agent User Profile [8.224917568034572]
物理における古典的再正規化群(RG)のイデオロギーに着想を得た自己進化型メモリフレームワークを提案する。
このフレームワークは対話履歴を複数のスケールで整理することができる。
私たちの研究の中核的な革新は、情報圧縮と出現のマルチスケールプロセスとしてのメモリ進化をモデル化することにあります。
論文 参考訳(メタデータ) (2025-10-18T08:16:46Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。