論文の概要: Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents
- arxiv url: http://arxiv.org/abs/2505.19436v1
- Date: Mon, 26 May 2025 02:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.125842
- Title: Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents
- Title(参考訳): タスクメモリエンジン:ロバストなマルチステップLDMエージェントのための空間記憶
- Authors: Ye Ye,
- Abstract要約: 大規模言語モデル (LLMs) は、線形で非構造的な文脈に依存するため、多段階の相互作用に影響を及ぼす。
本稿では,既存のLCMを堅牢でリビジョン対応のエージェントに変換するモジュール型メモリコントローラであるTask Memory Engine (TME)を紹介する。
TMEは、フラットなコンテキストをグラフベースの構造に置き換え、一貫性のあるマルチターン推論をサポートする空間記憶フレームワークを実装している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) falter in multi-step interactions -- often hallucinating, repeating actions, or misinterpreting user corrections -- due to reliance on linear, unstructured context. This fragility stems from the lack of persistent memory to track evolving goals and task dependencies, undermining trust in autonomous agents. We introduce the Task Memory Engine (TME), a modular memory controller that transforms existing LLMs into robust, revision-aware agents without fine-tuning. TME implements a spatial memory framework that replaces flat context with graph-based structures to support consistent, multi-turn reasoning. Departing from linear concatenation and ReAct-style prompting, TME builds a dynamic task graph -- either a tree or directed acyclic graph (DAG) -- to map user inputs to subtasks, align them with prior context, and enable dependency-tracked revisions. Its Task Representation and Intent Management (TRIM) component models task semantics and user intent to ensure accurate interpretation. Across four multi-turn scenarios-trip planning, cooking, meeting scheduling, and shopping cart editing -- TME eliminates 100% of hallucinations and misinterpretations in three tasks, and reduces hallucinations by 66.7% and misinterpretations by 83.3% across 27 user turns, outperforming ReAct. TME's modular design supports plug-and-play deployment and domain-specific customization, adaptable to both personal assistants and enterprise automation. We release TME's codebase, benchmarks, and components as open-source resources, enabling researchers to develop reliable LLM agents. TME's scalable architecture addresses a critical gap in agent performance across complex, interactive settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、線形で非構造的なコンテキストに依存するため、多段階の相互作用において、しばしば幻覚、繰り返しアクション、あるいはユーザの修正を誤解釈する。
この脆弱性は、進化する目標とタスク依存を追跡するための永続的メモリの欠如に起因し、自律的なエージェントに対する信頼を損なう。
我々は,既存のLCMを微調整なしで堅牢でリフレッシュなエージェントに変換するモジュール型メモリコントローラであるTask Memory Engine (TME)を紹介した。
TMEは、フラットなコンテキストをグラフベースの構造に置き換え、一貫性のあるマルチターン推論をサポートする空間記憶フレームワークを実装している。
線形連結とReActスタイルのプロンプトとは別に、TMEは動的タスクグラフ(木または有向非循環グラフ(DAG))を構築し、ユーザ入力をサブタスクにマッピングし、それらを事前のコンテキストと整合させ、依存性追跡されたリビジョンを可能にする。
TRIM(Task Representation and Intent Management)コンポーネントは、タスクの意味論とユーザ意図をモデル化し、正確な解釈を保証する。
4つのマルチターンシナリオの計画、料理、ミーティングスケジュール、ショッピングカートの編集 -- TMEは3つのタスクにおける幻覚と誤解釈の100%を排除し、幻覚を66.7%、誤解釈を83.3%削減し、ReActを上回っている。
TMEのモジュール設計は、プラグインとプレイのデプロイメントとドメイン固有のカスタマイズをサポートし、パーソナルアシスタントとエンタープライズオートメーションの両方に適応できる。
我々は、TMEのコードベース、ベンチマーク、コンポーネントをオープンソースリソースとしてリリースし、研究者が信頼できるLLMエージェントを開発できるようにする。
TMEのスケーラブルアーキテクチャは、複雑でインタラクティブな設定におけるエージェントパフォーマンスの重大なギャップに対処する。
関連論文リスト
- MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics [7.274730603514222]
自律型家庭用オブジェクト管理のためのLLM駆動型エージェントオーケストレーションアーキテクチャを具現化したロボットシステムを提案する。
このシステムはメモリ拡張タスク計画を統合し、過去の動作を追跡しながらロボットがハイレベルなユーザーコマンドを実行できるようにする。
論文 参考訳(メタデータ) (2025-04-30T15:00:20Z) - Task Memory Engine (TME): A Structured Memory Framework with Graph-Aware Extensions for Multi-Step LLM Agent Tasks [0.0]
階層型タスクメモリツリー(TMT)を用いてタスク実行を追跡する軽量で構造化されたメモリモジュールを提案する。
TMEはグラフ対応に設計されており、再利用可能なサブステップ、タスクパスの収束、依存関係の共有をサポートする。
論文 参考訳(メタデータ) (2025-04-11T13:38:36Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。
textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。