論文の概要: KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems
- arxiv url: http://arxiv.org/abs/2409.14908v1
- Date: Mon, 23 Sep 2024 11:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:26:12.919504
- Title: KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems
- Title(参考訳): KARMA: 長期記憶システムによる身体的AIエージェントの強化
- Authors: Zixuan Wang, Bo Yu, Junzhe Zhao, Wenhao Sun, Sai Hou, Shuai Liang, Xing Hu, Yinhe Han, Yiming Gan,
- Abstract要約: エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
- 参考スコア(独自算出の注目度): 12.461941212597877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI agents responsible for executing interconnected, long-sequence household tasks often face difficulties with in-context memory, leading to inefficiencies and errors in task execution. To address this issue, we introduce KARMA, an innovative memory system that integrates long-term and short-term memory modules, enhancing large language models (LLMs) for planning in embodied agents through memory-augmented prompting. KARMA distinguishes between long-term and short-term memory, with long-term memory capturing comprehensive 3D scene graphs as representations of the environment, while short-term memory dynamically records changes in objects' positions and states. This dual-memory structure allows agents to retrieve relevant past scene experiences, thereby improving the accuracy and efficiency of task planning. Short-term memory employs strategies for effective and adaptive memory replacement, ensuring the retention of critical information while discarding less pertinent data. Compared to state-of-the-art embodied agents enhanced with memory, our memory-augmented embodied AI agent improves success rates by 1.3x and 2.3x in Composite Tasks and Complex Tasks within the AI2-THOR simulator, respectively, and enhances task execution efficiency by 3.4x and 62.7x. Furthermore, we demonstrate that KARMA's plug-and-play capability allows for seamless deployment on real-world robotic systems, such as mobile manipulation platforms.Through this plug-and-play memory system, KARMA significantly enhances the ability of embodied agents to generate coherent and contextually appropriate plans, making the execution of complex household tasks more efficient. The experimental videos from the work can be found at https://youtu.be/4BT7fnw9ehs.
- Abstract(参考訳): 相互接続された長いシーケンスの家庭用タスクの実行に責任を負うエンボディードAIエージェントは、コンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
この問題に対処するため,我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを導入し,メモリ拡張プロンプトによるエンボディエージェントの計画のための大規模言語モデル(LLM)を拡張した。
KARMAは長期記憶と短期記憶を区別し、長期記憶は環境の表現として包括的な3Dシーングラフをキャプチャし、短期記憶はオブジェクトの位置や状態の変化を動的に記録する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
短期記憶は、有効かつ適応的なメモリ置換のための戦略を採用し、重要情報の保持を確実にし、関連する少ないデータを破棄する。
メモリで強化された最先端のエンボディエージェントと比較して、我々のメモリ拡張型エンボディAIエージェントは、AI2-THORシミュレータ内の複合タスクと複雑タスクにおいて、それぞれ1.3xと2.3xの成功率を改善し、タスク実行効率を3.4xと62.7xに向上させる。
さらに、KARMAのプラグ・アンド・プレイ機能により、モバイル操作プラットフォームなどの実世界のロボットシステムにシームレスにデプロイできることを実証し、このプラグ・アンド・プレイメモリシステムにより、KARMAは、エンボディエージェントがコヒーレントでコンテキスト的に適切な計画を生成する能力を著しく向上し、複雑な家庭用タスクの実行をより効率的にする。
実験ビデオはhttps://youtu.be/4BT7fnw9ehsで見ることができる。
関連論文リスト
- From RAG to Memory: Non-Parametric Continual Learning for Large Language Models [6.380729797938521]
検索強化世代(RAG)は、新しい情報を導入する主要な方法となっている。
最近のRAGは、知識グラフのような様々な構造を持つベクトル埋め込みを拡大して、いくつかのギャップ、すなわちセンスメイキングと連想性に対処している。
我々は,現実的,感覚的,連想的なメモリタスクにおいて,標準RAGを総合的に上回るフレームワークであるHippoRAG 2を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:26:02Z) - STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning [36.70014527951141]
S-Temporal Memory Agent (STMA) は,時間記憶の統合による計画と実行の促進を目的としたフレームワークである。
複雑性レベル4.7%のマルチステップ計画と探索を含む32タスクのTextWorld環境におけるSTMAを評価した。
実験の結果、STMAは最先端モデルと比較して31.25%の成功率、平均スコアが24.7%上昇していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T14:12:09Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
エンボディエージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。
3D-Memは、シーンを表現するために、Memory Snapshotsと呼ばれる情報的なマルチビューイメージを使用している。
さらに、Frontier Snapshots-glimpsの未探索領域対応エージェントを導入して、情報的な意思決定を行うことによって、フロンティアベースの探索をさらに統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Not All Memories are Created Equal: Learning to Forget by Expiring [49.053569908417636]
本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶を忘れることで、トランスフォーマーは数十万以上の前のタイムステップに効率的に参加することができます。
私たちは、Expire-Spanが数万の大きさの記憶にスケールできることを示し、信じられないほど長いコンテキストタスクに新しい状態を設定します。
論文 参考訳(メタデータ) (2021-05-13T20:50:13Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。