論文の概要: Trust Your Memory: Verifiable Control of Smart Homes through Reinforcement Learning with Multi-dimensional Rewards
- arxiv url: http://arxiv.org/abs/2604.10110v1
- Date: Sat, 11 Apr 2026 09:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.8482
- Title: Trust Your Memory: Verifiable Control of Smart Homes through Reinforcement Learning with Multi-dimensional Rewards
- Title(参考訳): 記憶の信頼:多次元リワードを用いた強化学習によるスマートホームの検証可能な制御
- Authors: Kai-Yuan Guo, Jiang Wang, Renjie Zhao, Tianyi Wang, Wandong Mao, Yu Gao, Mou Xiao Feng, Yi Xu,
- Abstract要約: 大規模言語モデル(LLM)は、パーソナライズされたスマートホームエクスペリエンスを実現するための重要な基盤となっている。
MemHomeLifeは匿名化された現実世界の長期的なユーザーインタラクションログから作られている。
MemHomeは、スマートホームシナリオにおけるメモリ駆動デバイス制御を体系的に評価するために設計された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 10.23809165159082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become a key foundation for enabling personalized smart home experiences. While existing studies have explored how smart home assistants understand user queries to control devices in real time, their ability to perform memory-driven device control remains challenging from both evaluation and methodological perspectives. In terms of evaluation, existing benchmarks either focus on immediate device control or general open-domain memory retrieval tasks, and therefore cannot effectively evaluate a model's ability to perform memory-driven device control. Methodologically, while memory-driven device control can be approached using Reinforcement Learning, conventional RL methods generally rely on outcome-based supervision (i.e., whether the final task is achieved). This lack of intermediate feedback can lead to sub-optimal performance or local failures in fine-grained memory management tasks (adding, updating, deleting, and utilizing). To address these issues, we first release MemHomeLife, built from anonymized real-world long-term user interaction logs. To enable more fine-grained evaluation of different memory-related subtasks, we further construct MemHome, the first benchmark designed to systematically evaluate memory-driven device control in smart home scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、パーソナライズされたスマートホームエクスペリエンスを実現するための重要な基盤となっている。
既存の研究では、スマートホームアシスタントがデバイスをリアルタイムで制御するためのユーザクエリをどのように理解するかが検討されているが、評価と方法論の両方の観点から、メモリ駆動デバイス制御を行う能力は依然として困難である。
評価の面では、既存のベンチマークは、即時デバイス制御または一般的なオープンドメインメモリ検索タスクに焦点を当てているため、メモリ駆動デバイス制御を実行するモデルの能力を効果的に評価することはできない。
方法論的には、メモリ駆動デバイス制御は強化学習(Reinforcement Learning)を用いてアプローチできるが、従来のRL手法は一般に結果に基づく監督(最終タスクが達成されるかどうか)に依存している。
この中間的なフィードバックの欠如は、微粒なメモリ管理タスク(追加、更新、削除、利用)における準最適パフォーマンスや局所的な障害につながる可能性がある。
これらの問題に対処するため、私たちは、匿名化された現実世界の長期的なユーザーインタラクションログから構築されたMemHomeLifeを最初にリリースしました。
異なるメモリ関連サブタスクのよりきめ細かい評価を可能にするため、スマートホームシナリオにおけるメモリ駆動デバイス制御を体系的に評価するための最初のベンチマークであるMemHomeを構築した。
関連論文リスト
- RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。
Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。
既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-01T18:59:59Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [65.70584076918679]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning [41.94295877935867]
メモリは、エージェントが時間的および空間的依存関係を持つ複雑なタスクに対処できるようにするために不可欠である。
多くの強化学習アルゴリズムにはメモリが組み込まれているが、エージェントのメモリ能力を評価するための普遍的なベンチマークがない。
メモリRLの総合ベンチマークであるMIKASAを紹介する。
論文 参考訳(メタデータ) (2025-02-14T20:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。