論文の概要: STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning
- arxiv url: http://arxiv.org/abs/2502.10177v2
- Date: Sun, 02 Mar 2025 08:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.685017
- Title: STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning
- Title(参考訳): STMA: 長期身体的タスク計画のための時空間記憶エージェント
- Authors: Mingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren,
- Abstract要約: S-Temporal Memory Agent (STMA) は,時間記憶の統合による計画と実行の促進を目的としたフレームワークである。
複雑性レベル4.7%のマルチステップ計画と探索を含む32タスクのTextWorld環境におけるSTMAを評価した。
実験の結果、STMAは最先端モデルと比較して31.25%の成功率、平均スコアが24.7%上昇していることがわかった。
- 参考スコア(独自算出の注目度): 36.70014527951141
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A key objective of embodied intelligence is enabling agents to perform long-horizon tasks in dynamic environments while maintaining robust decision-making and adaptability. To achieve this goal, we propose the Spatio-Temporal Memory Agent (STMA), a novel framework designed to enhance task planning and execution by integrating spatio-temporal memory. STMA is built upon three critical components: (1) a spatio-temporal memory module that captures historical and environmental changes in real time, (2) a dynamic knowledge graph that facilitates adaptive spatial reasoning, and (3) a planner-critic mechanism that iteratively refines task strategies. We evaluate STMA in the TextWorld environment on 32 tasks, involving multi-step planning and exploration under varying levels of complexity. Experimental results demonstrate that STMA achieves a 31.25% improvement in success rate and a 24.7% increase in average score compared to the state-of-the-art model. The results highlight the effectiveness of spatio-temporal memory in advancing the memory capabilities of embodied agents.
- Abstract(参考訳): インテリジェンスを具現化する主な目的は、エージェントが堅牢な意思決定と適応性を維持しながら、動的環境における長期タスクの実行を可能にすることである。
この目的を達成するために,時空間メモリの統合によるタスク計画と実行の促進を目的とした新しいフレームワークである時空間メモリエージェント(STMA)を提案する。
STMAは,(1)歴史的・環境変化をリアルタイムに捉えた時空間記憶モジュール,(2)適応的空間推論を容易にする動的知識グラフ,(3)反復的にタスク戦略を洗練するプランナー・クリティカルなメカニズムの3つの重要な構成要素の上に構築されている。
テキストワールド環境におけるSTMAを32のタスクで評価し、多段階計画と様々な複雑さの下で探索を行う。
実験の結果,STMAは成功率が31.25%向上し,平均スコアが24.7%上昇した。
その結果, 体内剤の記憶能力向上における時空間記憶の有効性が明らかとなった。
関連論文リスト
- REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文 参考訳(メタデータ) (2025-03-21T00:48:31Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Structured Preference Optimization for Vision-Language Long-Horizon Task Planning [60.26885165189447]
視覚言語タスクプランニングの既存の方法は、短期水平タスクでは優れているが、動的環境における複雑な長期水平計画では不足することが多い。
これらの課題は、ロングホライゾンタスクのための高品質な推論プロセスを生成するために、効果的にモデルを訓練することの難しさから生じる。
本研究では,長期タスク計画における推論と行動選択の促進を目的とした構造的選好最適化(SPO)を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:47:34Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
論文 参考訳(メタデータ) (2024-09-23T11:02:46Z) - EPD: Long-term Memory Extraction, Context-awared Planning and Multi-iteration Decision @ EgoPlan Challenge ICML 2024 [50.89751993430737]
本研究では,長期記憶抽出,コンテキストアウェアド計画,多項目決定という3段階からなる新しい計画手法を提案する。
EPDは1,584のエゴセントリックなタスク計画質問に対して53.85%の計画精度を達成した。
論文 参考訳(メタデータ) (2024-07-28T15:14:07Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Synergising Human-like Responses and Machine Intelligence for Planning in Disaster Response [10.294618771570985]
デュアルプロセス理論(DPT)にインスパイアされた注意に基づく認知アーキテクチャを提案する。
このフレームワークは、高速だが(人間のような)応答と、遅いが最適化されたマシンインテリジェンスの計画能力を統合する。
論文 参考訳(メタデータ) (2024-04-15T15:47:08Z) - Enabling Visual Action Planning for Object Manipulation through Latent
Space Roadmap [72.01609575400498]
高次元状態空間を有する複雑な操作タスクの視覚的行動計画のための枠組みを提案する。
低次元潜時空間におけるシステムダイナミクスを世界規模で捉えたグラフベースの構造であるタスク計画のためのLatent Space Roadmap(LSR)を提案する。
実ロボットで実行された2つの模擬ボックス積み重ねタスクと折り畳みタスクについて,本フレームワークの徹底的な検討を行う。
論文 参考訳(メタデータ) (2021-03-03T17:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。