論文の概要: MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval
- arxiv url: http://arxiv.org/abs/2605.06132v2
- Date: Thu, 14 May 2026 06:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 03:05:58.789154
- Title: MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval
- Title(参考訳): MemReranker: Reasoning-Aware Re rank for Agent Memory Retrieval
- Authors: Chunyu Li, Mengyuan Zhang, Jingyi Kang, Ding Chen, Jiajun Shen, Bo Tang, Xuanhe Zhou, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 本報告では,Qwen3-Reranker を用いた多段 LLM 知識蒸留によるリグレードモデルファミリ MemReranker (0.6B/4B) について紹介する。
メモリ検索ベンチマークでは、MemReranker-0.6BはBGE-Rerankerを大きく上回り、オープンソースの4B/8BモデルとGPT-4o-miniをキーメトリクスでマッチングする。
MemReranker-4B はさらに 0.737 MAP を達成し、Gemini-3-Flash と同等のメトリクスを持つ一方で、推論遅延を10-20%の大型モデルで維持している。
- 参考スコア(独自算出の注目度): 37.54115468116941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In agent memory systems, the reranking model serves as the critical bridge connecting user queries with long-term memory. Most systems adopt the "retrieve-then-rerank" two-stage paradigm, but generic reranking models rely on semantic similarity matching and lack genuine reasoning capabilities, leading to a problem where recalled results are semantically highly relevant yet do not contain the key information needed to answer the question. This deficiency manifests in memory scenarios as three specific problems. First, relevance scores are miscalibrated, making threshold-based filtering difficult. Second, ranking degrades when facing temporal constraints, causal reasoning, and other complex queries. Third, the model cannot leverage dialogue context for semantic disambiguation. This report introduces MemReranker, a reranking model family (0.6B/4B) built on Qwen3-Reranker through multi-stage LLM knowledge distillation. Multi-teacher pairwise comparisons generate calibrated soft labels, BCE pointwise distillation establishes well-distributed scores, and InfoNCE contrastive learning enhances hard-sample discrimination. Training data combines general corpora with memory-specific multi-turn dialogue data covering temporal constraints, causal reasoning, and coreference resolution. On the memory retrieval benchmark, MemReranker-0.6B substantially outperforms BGE-Reranker and matches open-source 4B/8B models as well as GPT-4o-mini on key metrics. MemReranker-4B further achieves 0.737 MAP, with several metrics on par with Gemini-3-Flash, while maintaining inference latency at only 10--20% of large models. On finance and healthcare vertical-domain benchmarks, the models preserve generalization capabilities on par with mainstream large-parameter rerankers.
- Abstract(参考訳): エージェントメモリシステムでは、リランクモデルはユーザクエリと長期メモリを接続する重要なブリッジとして機能する。
ほとんどのシステムでは「検索-then-rerank」という2段階のパラダイムが採用されているが、一般的なリグレードモデルは意味的類似性マッチングに頼っており、真の推論能力がないため、リコールされた結果が意味的に非常に関連性が高く、質問に答えるために必要な重要な情報を含んでいないという問題に繋がる。
この欠損は記憶のシナリオにおいて3つの特定の問題として現れる。
まず、関連度スコアが誤校正され、しきい値に基づくフィルタリングが困難になる。
第二に、時間的制約や因果推論、その他の複雑なクエリに直面するとランクが低下する。
第三に、モデルは意味的曖昧さに対話コンテキストを活用できない。
本報告では,Qwen3-Reranker を用いた多段 LLM 知識蒸留によるリグレードモデルファミリ MemReranker (0.6B/4B) について紹介する。
マルチ教師ペアワイズ比較は校正されたソフトラベルを生成し、BCEポイントワイズ蒸留はよく分散したスコアを確立し、InfoNCEコントラスト学習はハードサンプルの識別を促進する。
トレーニングデータは、一般的なコーパスと、時間的制約、因果推論、コア参照解決を含むメモリ固有のマルチターン対話データを組み合わせる。
メモリ検索ベンチマークでは、MemReranker-0.6BはBGE-Rerankerを大きく上回り、オープンソースの4B/8BモデルとGPT-4o-miniをキーメトリクスでマッチングする。
MemReranker-4B はさらに 0.737 MAP を達成し、Gemini-3-Flash と同等のメトリクスを出力し、推論遅延を10-20%の大型モデルで維持する。
ファイナンスとヘルスケアの垂直ドメインベンチマークでは、モデルはメインストリームの大規模リランカーに匹敵する一般化能力を保っている。
関連論文リスト
- Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。
多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。
私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文 参考訳(メタデータ) (2026-04-13T20:22:22Z) - D-Mem: A Dual-Process Memory System for LLM Agents [3.5426740232689604]
本稿では,デュアルプロセスメモリシステムD-Memを紹介する。
ルーチンクエリに対する軽量なベクトル検索を維持しながら、フルリベレーションモジュールを高忠実度フォールバックとして確立している。
GPT-4o-miniとQwen3-235B-Instructを用いたLoCoMoとRealTalkのベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-19T08:55:22Z) - Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models [16.865998112859604]
EverMemBenchは、100万以上のトークンにまたがる多人数のマルチグループ会話を特徴とするベンチマークである。
EverMemBenchは、1000以上のQAペアを通じて3次元にわたるメモリシステムを評価する。
論文 参考訳(メタデータ) (2026-02-01T16:13:08Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - PBFT-Backed Semantic Voting for Multi-Agent Memory Pruning [0.0]
本稿では,マルチエージェントシステム(MAS)における同期メモリプルーニングを可能にするCo-Forgetting Protocolを提案する。
1) エージェントが軽量な DistilBERT モデルを用いて、その内容と現在の運用状況に基づいて、メモリアイテムの関連性を評価すること、2) 時間的地平線をまたいで、その年齢とアクセス頻度に基づいて、メモリに重要性を割り当てるマルチスケールの時間的減衰関数、(3) 実践的ビザンチンフォールトトレランス(PBFT)に基づくコンセンサス機構により、メモリアイテムの保持または破棄の決定が、適格でフォールトトレラントなエージェントによって合意されることを保証すること、である。
論文 参考訳(メタデータ) (2025-06-19T08:28:29Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。