論文の概要: NuggetIndex: Governed Atomic Retrieval for Maintainable RAG
- arxiv url: http://arxiv.org/abs/2604.27306v1
- Date: Thu, 30 Apr 2026 01:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.866472
- Title: NuggetIndex: Governed Atomic Retrieval for Maintainable RAG
- Title(参考訳): NuggetIndex: 管理可能なRAGのための貧弱なアトミック検索
- Authors: Saber Zerhoudi, Michael Granitzer, Jelena Mitrovic,
- Abstract要約: 本研究では,NuggetIndexという,原子情報単位を管理レコードとして格納する検索システムを提案する。
各レコードは、証拠、時間的妥当性間隔、ライフサイクル状態へのリンクを保持する。
提案手法は,Nuggetized MS MARCOサブセット,時間的ウィキペディアQAデータセット,マルチホップQAタスクを用いて評価する。
- 参考スコア(独自算出の注目度): 3.2058241360543254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems are frequently evaluated via fact-based metrics, yet standard implementations retrieve passages or static propositions. This unit mismatch between evaluation and retrieval objects hinders maintenance when corpora evolve and fails to capture superseded facts or source disagreements. We propose NuggetIndex, a retrieval system that stores atomic information units as managed records, so called nuggets. Each record maintains links to evidence, a temporal validity interval, and a lifecycle state. By filtering invalid or deprecated nuggets prior to ranking, the system prevents the inclusion of outdated information. We evaluate the approach using a nuggetized MS MARCO subset, a temporal Wikipedia QA dataset, and a multi-hop QA task. Against passage and unmanaged proposition retrieval baselines, NuggetIndex improves nugget recall by 42%, increases temporal correctness by 9 percentage points without the recall collapse observed in time-filtered baselines, and reduces conflict rates by 55%. The compact nugget format reduces generator input length by 64% while enabling lightweight index structures suitable for browser-based and resource-constrained deployment. We release our implementation, datasets, and evaluation scripts
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムはファクトベースのメトリクスによって頻繁に評価されるが、標準実装ではパスや静的命題を検索する。
このユニットは、評価オブジェクトと検索オブジェクトのミスマッチにより、コーパスの進化時にメンテナンスが妨げられ、過度な事実やソースの不一致をキャプチャできない。
本研究では,NuggetIndexという,原子情報単位を管理レコードとして格納する検索システムを提案する。
各レコードは、証拠、時間的妥当性間隔、ライフサイクル状態へのリンクを保持する。
ランキングの前に無効または非推奨のナゲットをフィルタリングすることにより、システムは時代遅れの情報を含まないようにする。
提案手法は,Nuggetized MS MARCOサブセット,時間的ウィキペディアQAデータセット,マルチホップQAタスクを用いて評価する。
NuggetIndexは通過と未管理の命題検索ベースラインに対して、ナゲットリコールを42%改善し、タイムフィルターベースラインで観測されるリコール崩壊なしに時間的正しさを9ポイント向上させ、コンフリクトレートを55%低下させる。
コンパクトなnuggetフォーマットは、ジェネレータの入力長を64%削減し、ブラウザベースおよびリソース制限されたデプロイメントに適した軽量なインデックス構造を実現する。
実装、データセット、評価スクリプトをリリースします。
関連論文リスト
- Reducing Redundancy in Retrieval-Augmented Generation through Chunk Filtering [0.0]
本研究では,検索品質を維持しつつ,索引付きコーパスを削減するためのチャンクフィルタリング手法を検討する。
検索性能は、精度、リコール、クロスオーバー・ユニオンのメトリクスに基づくトークンベースのフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2026-04-27T11:23:39Z) - A Parametric Memory Head for Continual Generative Retrieval [52.66674234249913]
生成情報検索(GenIR)は、検索を単一のニューラルモデルに統合し、クエリから直接ドキュメント識別子(ドシデント)をデコードする。
逐次適応は、新たに追加された文書の検索を改善するが、以前のスライスの性能は著しく低下することを示す。
本稿では,モジュール型パラメトリックメモリヘッドで適応モデルを拡張するメモリのみの安定化ステージである,後適応メモリチューニング(PAMT)を提案する。
論文 参考訳(メタデータ) (2026-04-25T17:38:51Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Incorporating Q&A Nuggets into Retrieval-Augmented Generation [23.32167679162754]
CrucibleはNugget-Augmented Generation Systemであり、取得した文書からQ&Aナゲットの銀行を構築することで、明示的な引用の証明を保存する。
ナゲットの推論は、明確で解釈可能なQ&Aセマンティクスを通じて繰り返し情報を避ける。
我々のシステムは,近年のナゲットベースRAGシステムであるGingerを,ナゲットリコール,密度,励振グラウンドリングで大きく上回っている。
論文 参考訳(メタデータ) (2026-01-19T16:57:33Z) - Memory in Large Language Models: Mechanisms, Evaluation and Evolution [8.158439933515131]
我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
論文 参考訳(メタデータ) (2025-09-23T10:06:58Z) - Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses [45.2769075498271]
当社のAutoNuggetizerフレームワークを使用して,LMArenaが提供する約7Kの検索アリーナバトルからのデータを分析する。
その結果,ナゲットスコアとヒトの嗜好との間に有意な相関が認められた。
論文 参考訳(メタデータ) (2025-04-28T17:24:36Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Atomic Fact Decomposition Helps Attributed Question Answering [29.67882325906939]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Detection Transformer with Stable Matching [48.963171068785435]
もっとも重要な設計は, 肯定的な事例の分類スコアを監督するために, 位置測定値のみを使用することである。
本原理では,DTRの分類損失とマッチングコストに位置測定値を統合することで,簡易かつ効果的な2つの修正を提案する。
12エポックおよび24エポックのトレーニング設定の下でResNet-50バックボーンを用いてCOCO検出ベンチマークで50.4および51.5APを達成する。
論文 参考訳(メタデータ) (2023-04-10T17:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。