論文の概要: MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning
- arxiv url: http://arxiv.org/abs/2606.04442v1
- Date: Wed, 03 Jun 2026 04:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.544495
- Title: MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning
- Title(参考訳): MemoryDocDataSet: 対話型メモリと長期ドキュメント推論のためのベンチマーク
- Authors: Qiyang Xie, Jialun Wu, Xinjie He, Su Liu, Shuai Xiao, Zhiyuan Lin, Weikai Zhou,
- Abstract要約: MemoryDocDataSetは、50マイクロワールドと1000QAペアの総合ベンチマークである。
それぞれのインスタンスは、3~5のペルソナ、数ヶ月のアクティビティにまたがる一時的なイベントグラフ、3~5の実際の長いドキュメント、それらのドキュメントに基づくマルチセッションの会話で構成されている。
定義されている特徴は、ハイブリッドソースタグである: システムが最初に会話履歴をナビゲートし、どのドキュメントが関連しているかを特定し、そのドキュメントから回答を抽出する。
- 参考スコア(独自算出の注目度): 6.180594609315986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep reading comprehension within long documents. Yet no existing benchmark evaluates both simultaneously. We introduce MemoryDocDataSet, a synthetic benchmark of 50 micro-worlds and 1,000 QA pairs in which each instance comprises 3-5 personas, a temporal event graph spanning months of activity, 3-5 real long documents (20,000-50,000 tokens each sourced from the Caselaw Access Project), multi-session conversations grounded on those documents, and 20 question-answer pairs across five reasoning categories. The defining feature is the Hybrid source tag: questions requiring a system to first navigate conversation history to identify which document is relevant, then extract the answer from within that document. Hybrid questions account for 75.1% of the dataset. Dataset quality is characterised through a prompt-sensitivity self-consistency analysis using LLM-as-judge, yielding a median Cohen's $κ= 0.634$ across all 50 micro-worlds. We evaluate six baseline configurations spanning truncated context, long-context LLMs, retrieval-augmented generation (RAG), and memory systems. The best baseline (RAG-Both) achieves 0.358 overall F1 and 0.342 on Hybrid. Document-only retrieval (RAG-Doc) collapses to 0.267 on Hybrid despite achieving 0.453 on Doc-only questions, demonstrating a clear joint-retrieval gap that motivates architectures unifying conversational memory with long-document navigation. We release the dataset, generation pipeline, and all baseline implementations.
- Abstract(参考訳): AIシステムは、多セッション会話履歴をナビゲートし、長いドキュメント内で深い読み理解を実行するという、2つの要求機能を組み合わせる必要がある。
しかし、両者を同時に評価するベンチマークは存在しない。
MemoryDocDataSetは50のマイクロワールドと1000のQAペアの総合ベンチマークで、各インスタンスは3-5のペルソナ、月ごとのアクティビティにまたがる時間的イベントグラフ、3-5のリアルタイムな長いドキュメント(ケースローアクセスプロジェクトからそれぞれ20,000~50,000のトークン)、それらのドキュメントに基づくマルチセッション会話、20の質問応答ペアで構成されています。
定義されている特徴は、ハイブリッドソースタグである: システムが最初に会話履歴をナビゲートし、どのドキュメントが関連しているかを特定し、そのドキュメントから回答を抽出する。
ハイブリッドな質問はデータセットの75.1%を占めている。
データセットの品質は、LLM-as-judgeを用いた迅速な自己整合性分析によって特徴づけられる。
提案手法は, truncated context, long-context LLMs, retrieve-augmented generation (RAG) およびメモリシステムにまたがる6つのベースライン構成を評価する。
最良のベースライン(RAG-Both)は、総合F1の0.358、ハイブリッドの0.342である。
ドキュメントのみの検索 (RAG-Doc) は、ドキュメントのみの質問で 0.453 を達成しているにもかかわらず、Hybrid上で 0.267 に崩壊する。
データセット、生成パイプライン、およびすべてのベースライン実装をリリースします。
関連論文リスト
- Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。