論文の概要: CloneMem: Benchmarking Long-Term Memory for AI Clones
- arxiv url: http://arxiv.org/abs/2601.07023v1
- Date: Sun, 11 Jan 2026 18:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.124116
- Title: CloneMem: Benchmarking Long-Term Memory for AI Clones
- Title(参考訳): CloneMem: AIクローンの長期メモリベンチマーク
- Authors: Sen Hu, Zhiyu Zhang, Yuxiang Wei, Xueran Han, Zhenheng Tang, Huacan Wang, Ronghao Chen,
- Abstract要約: AIクローンは、個人の思考や行動をシミュレートして、長期的なパーソナライズされた対話を可能にすることを目的としている。
我々は,非会話的デジタルトレースに基づくAIクローンシナリオの長期メモリ評価ベンチマークであるCloneMemを紹介する。
- 参考スコア(独自算出の注目度): 16.784751074924568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI Clones aim to simulate an individual's thoughts and behaviors to enable long-term, personalized interaction, placing stringent demands on memory systems to model experiences, emotions, and opinions over time. Existing memory benchmarks primarily rely on user-agent conversational histories, which are temporally fragmented and insufficient for capturing continuous life trajectories. We introduce CloneMem, a benchmark for evaluating longterm memory in AI Clone scenarios grounded in non-conversational digital traces, including diaries, social media posts, and emails, spanning one to three years. CloneMem adopts a hierarchical data construction framework to ensure longitudinal coherence and defines tasks that assess an agent's ability to track evolving personal states. Experiments show that current memory mechanisms struggle in this setting, highlighting open challenges for life-grounded personalized AI. Code and dataset are available at https://github.com/AvatarMemory/CloneMemBench
- Abstract(参考訳): AIクローンは、個人の思考や行動をシミュレートして、長期的かつパーソナライズされたインタラクションを可能にし、経験、感情、意見のモデル化にメモリシステムに厳格な要求を課すことを目的としている。
既存のメモリベンチマークは主にユーザエージェントの会話履歴に依存しており、これは時間的に断片化され、連続的なライフトラジェクトリを捉えるには不十分である。
我々は、日記、ソーシャルメディア投稿、メールを含む非会話的デジタルトレースに基礎を置くAIクローンシナリオの長期記憶を評価するためのベンチマークであるCloneMemを紹介した。
CloneMemは階層的なデータ構築フレームワークを採用して、縦方向のコヒーレンスを確保し、進化するパーソナル状態を追跡するエージェントの能力を評価するタスクを定義する。
実験によると、現在のメモリメカニズムはこの設定で苦労しており、ライフグラウンドのパーソナライズされたAIに対するオープンな課題を強調している。
コードとデータセットはhttps://github.com/AvatarMemory/CloneMemBenchで入手できる。
関連論文リスト
- RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction [21.670389104174536]
RealMem**は、現実的なプロジェクトのシナリオに基礎を置いた最初のベンチマークです。
RealMemは11つのシナリオにわたる2,000以上のクロスセッション対話で構成され、評価に自然なユーザクエリを利用する。
本稿では,メモリの動的進化をシミュレートするために,Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory synthesis and Schedule Managementを統合するパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-11T15:49:36Z) - HiMem: Hierarchical Long-Term Memory for LLM Long-Horizon Agents [3.9396865837159822]
HiMemは、長距離対話のための階層的長期記憶フレームワークである。
メモリ構築、検索、持続的なインタラクション中の動的更新をサポートする。
その結果、HiMemは、精度、一貫性、長期的な推論において、代表的ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-10T01:26:01Z) - EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning [42.339841548168565]
大きな言語モデル(LLM)は、長期の対話エージェントとしてますますデプロイされているが、その限られたコンテキストウィンドウは、拡張された相互作用よりもコヒーレントな振舞いを維持するのが困難である。
本稿では,EverMemOSについて紹介する。EverMemOSは,計算メモリにエミュレートされたライフサイクルを実装した自己組織型メモリオペレーティングシステムである。
EverMemOSは、メモリ拡張推論タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-05T14:39:43Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
本稿では,長期記憶設計をインデックス化,検索,読解の3段階に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。