論文の概要: Efficiently Enhancing General Agents With Hierarchical-categorical Memory
- arxiv url: http://arxiv.org/abs/2505.22006v1
- Date: Wed, 28 May 2025 06:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.437227
- Title: Efficiently Enhancing General Agents With Hierarchical-categorical Memory
- Title(参考訳): 階層型記憶を用いた汎用エージェントの効率化
- Authors: Changze Qiao, Mingming Lu,
- Abstract要約: パラメータ更新なしで学習できる汎用エージェントであるEHCを紹介する。
EHCは階層型メモリ検索(HMR)モジュールとタスクカテゴリ指向体験学習(TOEL)モジュールで構成される。
- 参考スコア(独自算出の注目度): 0.5919433278490629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With large language models (LLMs) demonstrating remarkable capabilities, there has been a surge in research on leveraging LLMs to build general-purpose multi-modal agents. However, existing approaches either rely on computationally expensive end-to-end training using large-scale multi-modal data or adopt tool-use methods that lack the ability to continuously learn and adapt to new environments. In this paper, we introduce EHC, a general agent capable of learning without parameter updates. EHC consists of a Hierarchical Memory Retrieval (HMR) module and a Task-Category Oriented Experience Learning (TOEL) module. The HMR module facilitates rapid retrieval of relevant memories and continuously stores new information without being constrained by memory capacity. The TOEL module enhances the agent's comprehension of various task characteristics by classifying experiences and extracting patterns across different categories. Extensive experiments conducted on multiple standard datasets demonstrate that EHC outperforms existing methods, achieving state-of-the-art performance and underscoring its effectiveness as a general agent for handling complex multi-modal tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)が目覚ましい能力を示しており、汎用マルチモーダルエージェントの構築にLLMを活用する研究が急増している。
しかし、既存のアプローチでは、大規模マルチモーダルデータを使用した計算コストのかかるエンドツーエンドトレーニングや、新しい環境を継続的に学習し適応する能力に欠けるツール利用手法が採用されている。
本稿では,パラメータ更新なしで学習できる汎用エージェントであるEMCを紹介する。
EHCは階層型メモリ検索(HMR)モジュールとタスクカテゴリ指向体験学習(TOEL)モジュールで構成される。
HMRモジュールは、関連するメモリの迅速な検索を促進し、メモリ容量に制約されることなく、新しい情報を継続的に保存する。
TOELモジュールは、経験を分類し、異なるカテゴリにまたがるパターンを抽出することにより、エージェントの様々なタスク特性の理解を強化する。
複数の標準データセット上で実施された大規模な実験により、EHCは既存の手法よりも優れており、最先端のパフォーマンスを達成し、複雑なマルチモーダルタスクを扱う汎用エージェントとしての有効性を実証している。
関連論文リスト
- MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model [37.85614317331844]
MLLM(Multimodal Large Language Model)の改良には,インストラクションチューニングが広く用いられている。
現実のシナリオで可能なすべての命令データセットを同時に収集することは不可能である。
本稿では,CKA(Centered Kernel Alignment)の類似性に基づくタスク固有拡張およびタスク一般融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T08:56:03Z) - Lifelong Learning of Large Language Model based Agents: A Roadmap [39.01532420650279]
連続的・漸進的な学習として知られる生涯学習は、人工知能(AGI)を前進させる重要な要素である
この調査は、生涯学習を大規模言語モデル(LLM)に組み込むための潜在的テクニックを体系的にまとめる最初のものである。
これらの柱が集合的に連続的な適応を可能にし、破滅的な忘れを軽減し、長期的なパフォーマンスを向上させる方法について強調する。
論文 参考訳(メタデータ) (2025-01-13T12:42:04Z) - APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。