Fugu-MT 論文翻訳(概要): Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents

論文の概要: Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents

arxiv url: http://arxiv.org/abs/2505.19436v1
Date: Mon, 26 May 2025 02:53:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.125842
Title: Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents
Title（参考訳）: タスクメモリエンジン:ロバストなマルチステップLDMエージェントのための空間記憶
Authors: Ye Ye,
Abstract要約: 大規模言語モデル (LLMs) は、線形で非構造的な文脈に依存するため、多段階の相互作用に影響を及ぼす。本稿では,既存のLCMを堅牢でリビジョン対応のエージェントに変換するモジュール型メモリコントローラであるTask Memory Engine (TME)を紹介する。 TMEは、フラットなコンテキストをグラフベースの構造に置き換え、一貫性のあるマルチターン推論をサポートする空間記憶フレームワークを実装している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) falter in multi-step interactions -- often hallucinating, repeating actions, or misinterpreting user corrections -- due to reliance on linear, unstructured context. This fragility stems from the lack of persistent memory to track evolving goals and task dependencies, undermining trust in autonomous agents. We introduce the Task Memory Engine (TME), a modular memory controller that transforms existing LLMs into robust, revision-aware agents without fine-tuning. TME implements a spatial memory framework that replaces flat context with graph-based structures to support consistent, multi-turn reasoning. Departing from linear concatenation and ReAct-style prompting, TME builds a dynamic task graph -- either a tree or directed acyclic graph (DAG) -- to map user inputs to subtasks, align them with prior context, and enable dependency-tracked revisions. Its Task Representation and Intent Management (TRIM) component models task semantics and user intent to ensure accurate interpretation. Across four multi-turn scenarios-trip planning, cooking, meeting scheduling, and shopping cart editing -- TME eliminates 100% of hallucinations and misinterpretations in three tasks, and reduces hallucinations by 66.7% and misinterpretations by 83.3% across 27 user turns, outperforming ReAct. TME's modular design supports plug-and-play deployment and domain-specific customization, adaptable to both personal assistants and enterprise automation. We release TME's codebase, benchmarks, and components as open-source resources, enabling researchers to develop reliable LLM agents. TME's scalable architecture addresses a critical gap in agent performance across complex, interactive settings.
Abstract（参考訳）: 大規模言語モデル(LLM)は、線形で非構造的なコンテキストに依存するため、多段階の相互作用において、しばしば幻覚、繰り返しアクション、あるいはユーザの修正を誤解釈する。この脆弱性は、進化する目標とタスク依存を追跡するための永続的メモリの欠如に起因し、自律的なエージェントに対する信頼を損なう。我々は,既存のLCMを微調整なしで堅牢でリフレッシュなエージェントに変換するモジュール型メモリコントローラであるTask Memory Engine (TME)を紹介した。 TMEは、フラットなコンテキストをグラフベースの構造に置き換え、一貫性のあるマルチターン推論をサポートする空間記憶フレームワークを実装している。線形連結とReActスタイルのプロンプトとは別に、TMEは動的タスクグラフ(木または有向非循環グラフ(DAG))を構築し、ユーザ入力をサブタスクにマッピングし、それらを事前のコンテキストと整合させ、依存性追跡されたリビジョンを可能にする。 TRIM(Task Representation and Intent Management)コンポーネントは、タスクの意味論とユーザ意図をモデル化し、正確な解釈を保証する。 4つのマルチターンシナリオの計画、料理、ミーティングスケジュール、ショッピングカートの編集 -- TMEは3つのタスクにおける幻覚と誤解釈の100%を排除し、幻覚を66.7%、誤解釈を83.3%削減し、ReActを上回っている。 TMEのモジュール設計は、プラグインとプレイのデプロイメントとドメイン固有のカスタマイズをサポートし、パーソナルアシスタントとエンタープライズオートメーションの両方に適応できる。我々は、TMEのコードベース、ベンチマーク、コンポーネントをオープンソースリソースとしてリリースし、研究者が信頼できるLLMエージェントを開発できるようにする。 TMEのスケーラブルアーキテクチャは、複雑でインタラクティブな設定におけるエージェントパフォーマンスの重大なギャップに対処する。

関連論文リスト

RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3～36ポイントの絶対的な向上が見られた。
論文参考訳（メタデータ） (2025-07-04T02:20:19Z)
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。 MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文参考訳（メタデータ） (2025-05-29T16:08:51Z)
MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。 MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文参考訳（メタデータ） (2025-05-21T00:56:09Z)
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics [7.274730603514222]
自律型家庭用オブジェクト管理のためのLLM駆動型エージェントオーケストレーションアーキテクチャを具現化したロボットシステムを提案する。このシステムはメモリ拡張タスク計画を統合し、過去の動作を追跡しながらロボットがハイレベルなユーザーコマンドを実行できるようにする。
論文参考訳（メタデータ） (2025-04-30T15:00:20Z)
Task Memory Engine (TME): A Structured Memory Framework with Graph-Aware Extensions for Multi-Step LLM Agent Tasks [0.0]
階層型タスクメモリツリー(TMT)を用いてタスク実行を追跡する軽量で構造化されたメモリモジュールを提案する。 TMEはグラフ対応に設計されており、再利用可能なサブステップ、タスクパスの収束、依存関係の共有をサポートする。
論文参考訳（メタデータ） (2025-04-11T13:38:36Z)
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-04-10T16:54:28Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。 textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-12-15T04:58:00Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
SCM: Enhancing Large Language Model with Self-Controlled Memory Framework [54.33686574304374]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-26T07:25:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。