論文の概要: Convomem Benchmark: Why Your First 150 Conversations Don't Need RAG
- arxiv url: http://arxiv.org/abs/2511.10523v1
- Date: Fri, 14 Nov 2025 01:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.909074
- Title: Convomem Benchmark: Why Your First 150 Conversations Don't Need RAG
- Title(参考訳): Convomem Benchmark:最初の150の会話にRAGは必要ない理由
- Authors: Egor Pakhomov, Erik Nijkamp, Caiming Xiong,
- Abstract要約: 本稿では,75,336組の質問応答対を含む対話型メモリ評価のためのベンチマークを提案する。
対話記憶と検索強化生成の関係について検討する。
- 参考スコア(独自算出の注目度): 43.50649999164793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a comprehensive benchmark for conversational memory evaluation containing 75,336 question-answer pairs across diverse categories including user facts, assistant recall, abstention, preferences, temporal changes, and implicit connections. While existing benchmarks have advanced the field, our work addresses fundamental challenges in statistical power, data generation consistency, and evaluation flexibility that limit current memory evaluation frameworks. We examine the relationship between conversational memory and retrieval-augmented generation (RAG). While these systems share fundamental architectural patterns--temporal reasoning, implicit extraction, knowledge updates, and graph representations--memory systems have a unique characteristic: they start from zero and grow progressively with each conversation. This characteristic enables naive approaches that would be impractical for traditional RAG. Consistent with recent findings on long context effectiveness, we observe that simple full-context approaches achieve 70-82% accuracy even on our most challenging multi-message evidence cases, while sophisticated RAG-based memory systems like Mem0 achieve only 30-45% when operating on conversation histories under 150 interactions. Our analysis reveals practical transition points: long context excels for the first 30 conversations, remains viable with manageable trade-offs up to 150 conversations, and typically requires hybrid or RAG approaches beyond that point as costs and latencies become prohibitive. These patterns indicate that the small-corpus advantage of conversational memory--where exhaustive search and complete reranking are feasible--deserves dedicated research attention rather than simply applying general RAG solutions to conversation histories.
- Abstract(参考訳): ユーザ事実, アシスタントリコール, 棄権, 嗜好, 時間的変化, 暗黙的接続など, 多様なカテゴリにまたがる75,336の質問応答対を含む, 会話記憶評価のための総合的ベンチマークを提案する。
既存のベンチマークがこの分野を前進させている一方で、我々の研究は、現在のメモリ評価フレームワークを制限する統計的パワー、データ生成の一貫性、評価の柔軟性に関する根本的な課題に対処しています。
本稿では,会話記憶と検索増強生成(RAG)の関係について検討する。
これらのシステムは、時間的推論、暗黙的な抽出、知識更新、グラフ表現といった基本的なアーキテクチャパターンを共有しているが、メモリシステムは、ゼロから始まり、各会話で徐々に成長する。
この特徴は、従来のRAGでは実現不可能な、素直なアプローチを可能にする。
近年の長期的文脈の有効性に関する知見と一致して,150件の対話履歴の操作において,複雑なRAGベースのメモリシステムであるMem0がわずか30~45%の精度しか達成できないのに対して,最も難解なマルチメッセージエビデンスにおいても,単純なフルコンテキストアプローチが70~82%の精度を実現しているのが観察された。
私たちの分析では、最初の30回の会話で長いコンテキストが優れており、管理可能なトレードオフによって最大150回の会話が可能であり、コストとレイテンシが禁じられるにつれて、その点を超えるハイブリッドまたはRAGアプローチが必要です。
これらのパターンは、会話履歴に一般のRAGソリューションを適用するのではなく、徹底的な検索と完全再ランクが可能である会話記憶の小さなコーパスの利点を示している。
関連論文リスト
- AssoMem: Scalable Memory QA with Multi-Signal Associative Retrieval [28.858496175399623]
本稿では,対話発話をアンロックして手がかりを自動的に抽出する連想記憶グラフ構築フレームワークAssoMemを提案する。
AssoMemはSOTAベースラインを一貫して上回り、コンテキスト対応メモリリコールにおいてその優位性を検証する。
論文 参考訳(メタデータ) (2025-10-12T01:23:23Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning [30.64878954885555]
コモラグは、物語的推論は単発の過程ではなく、新しい証拠獲得と過去の知識の融合の間の動的で進化的な相互作用である、という原則を掲げて提案する。
各サイクルにおいて、ComoRAGは新しい探索経路を考案するための探索クエリを生成し、検索した新しい側面の証拠をグローバルメモリプールに統合する。
ComoRAGは、グローバルなコンテキスト理解を必要とする複雑なクエリに対して特に有利である。
論文 参考訳(メタデータ) (2025-08-14T07:52:09Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - Mitigating the Negative Impact of Over-association for Conversational Query Production [44.661864532728615]
対話型クエリ生成は、対話履歴から検索クエリを生成することを目的としており、検索エンジンから関連する知識を取得するために使用される。
従来のモデルはデータ飢餓の問題に悩まされており、対話履歴から重要な概念を落とし、推論時に無関係な概念を生成する傾向がある。
複数の視点からこれらの問題を緩和するための訓練のための効果的なインスタンスレベルの重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-09-29T06:19:59Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。