論文の概要: Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory
- arxiv url: http://arxiv.org/abs/2604.01007v2
- Date: Thu, 02 Apr 2026 14:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.474324
- Title: Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory
- Title(参考訳): Omni-SimpleMem: 生涯にわたるマルチモーダルエージェントメモリの自動検索による発見
- Authors: Jiaqi Liu, Zipeng Ling, Shi Qiu, Yanqing Liu, Siwei Han, Peng Xia, Haoqin Tu, Zeyu Zheng, Cihang Xie, Charles Fleming, Mingyu Ding, Huaxiu Yao,
- Abstract要約: 我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。
本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
- 参考スコア(独自算出の注目度): 76.63021613850093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents increasingly operate over extended time horizons, yet their ability to retain, organize, and recall multimodal experiences remains a critical bottleneck. Building effective lifelong memory requires navigating a vast design space spanning architecture, retrieval strategies, prompt engineering, and data pipelines; this space is too large and interconnected for manual exploration or traditional AutoML to explore effectively. We deploy an autonomous research pipeline to discover Omni-SimpleMem, a unified multimodal memory framework for lifelong AI agents. Starting from a naïve baseline (F1=0.117 on LoCoMo), the pipeline autonomously executes ${\sim}50$ experiments across two benchmarks, diagnosing failure modes, proposing architectural modifications, and repairing data pipeline bugs, all without human intervention in the inner loop. The resulting system achieves state-of-the-art on both benchmarks, improving F1 by +411% on LoCoMo (0.117$\to$0.598) and +214% on Mem-Gallery (0.254$\to$0.797) relative to the initial configurations. Critically, the most impactful discoveries are not hyperparameter adjustments: bug fixes (+175%), architectural changes (+44%), and prompt engineering (+188% on specific categories) each individually exceed the cumulative contribution of all hyperparameter tuning, demonstrating capabilities fundamentally beyond the reach of traditional AutoML. We provide a taxonomy of six discovery types and identify four properties that make multimodal memory particularly suited for autoresearch, offering guidance for applying autonomous research pipelines to other AI system domains. Code is available at this https://github.com/aiming-lab/SimpleMem.
- Abstract(参考訳): AIエージェントは、拡張タイムの地平線上でますます運用されるが、マルチモーダル体験の維持、整理、リコール能力は、依然として重要なボトルネックである。
効果的な生涯記憶を構築するには、アーキテクチャ、検索戦略、プロンプトエンジニアリング、データパイプラインにまたがる広大な設計スペースをナビゲートする必要がある。
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
ナイーブベースライン(LoCoMoのF1=0.117)から始めて、パイプラインは2つのベンチマークで${\sim}50$の実験を自律的に実行し、障害モードの診断、アーキテクチャ修正の提案、データパイプラインバグの修復などを行う。
その結果、両方のベンチマークで最先端を実現し、LoCoMo(0.117$\to$0.598)でF1を+411%改善し、Mem-Gallery(0.254$\to$0.797)で+214%改善した。
バグ修正(+175%)、アーキテクチャ変更(+44%)、迅速なエンジニアリング(+188%は特定のカテゴリ) それぞれが、すべてのハイパーパラメータチューニングの累積的な貢献を超え、従来のAutoMLのリーチを超える機能を示す。
我々は6種類の発見型の分類を提供し、特に自動検索に適したマルチモーダルメモリを実現する4つの特性を特定し、他のAIシステムドメインに自律的な研究パイプラインを適用するためのガイダンスを提供する。
コードは、このhttps://github.com/aiming-lab/SimpleMemで入手できる。
関連論文リスト
- HippoCamp: Benchmarking Contextual Agents on Personal Computers [71.97629614361549]
HippoCampは、マルチモーダルファイル管理におけるエージェントの能力を評価するために設計された新しいベンチマークである。
本ベンチマークでは,2K以上の実世界のファイルにまたがる42.4GBのデータを含む,多種多様なモダリティにまたがる実世界のプロファイルに対して,デバイススケールのファイルシステムをインスタンス化する。
論文 参考訳(メタデータ) (2026-04-01T17:58:33Z) - D-Mem: A Dual-Process Memory System for LLM Agents [3.5426740232689604]
本稿では,デュアルプロセスメモリシステムD-Memを紹介する。
ルーチンクエリに対する軽量なベクトル検索を維持しながら、フルリベレーションモジュールを高忠実度フォールバックとして確立している。
GPT-4o-miniとQwen3-235B-Instructを用いたLoCoMoとRealTalkのベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-19T08:55:22Z) - AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines [3.4381029715186844]
AIE4MLはAIモデルをAIE-ML生成デバイスをターゲットにした最適化ファームウェアに自動的に変換するフレームワークである。
シングルカーネルベースラインと比較して98.6%の効率を実現しています。
実世界のモデルトポロジを評価することで、AIE4MLはマイクロ秒レイテンシ制約下でGPUクラスのスループットを提供することを示した。
論文 参考訳(メタデータ) (2025-12-17T20:13:05Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration [13.925896302382043]
大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-06-24T10:39:07Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。