論文の概要: Utilizing Metadata for Better Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.11863v1
- Date: Sat, 17 Jan 2026 01:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.345801
- Title: Utilizing Metadata for Better Retrieval-Augmented Generation
- Title(参考訳): 検索機能向上のためのメタデータの利用
- Authors: Raquib Bin Yousuf, Shengzhe Xu, Mandar Sharma, Andrew Neeser, Chris Latimer, Naren Ramakrishnan,
- Abstract要約: 本稿ではメタデータを意識した検索手法の体系的研究を行う。
平文のベースラインとメタデータを直接埋め込むアプローチを比較します。
プレフィックスと統合埋め込みは、平文ベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 10.865886799087782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation systems depend on retrieving semantically relevant document chunks to support accurate, grounded outputs from large language models. In structured and repetitive corpora such as regulatory filings, chunk similarity alone often fails to distinguish between documents with overlapping language. Practitioners often flatten metadata into input text as a heuristic, but the impact and trade-offs of this practice remain poorly understood. We present a systematic study of metadata-aware retrieval strategies, comparing plain-text baselines with approaches that embed metadata directly. Our evaluation spans metadata-as-text (prefix and suffix), a dual-encoder unified embedding that fuses metadata and content in a single index, dual-encoder late-fusion retrieval, and metadata-aware query reformulation. Across multiple retrieval metrics and question types, we find that prefixing and unified embeddings consistently outperform plain-text baselines, with the unified at times exceeding prefixing while being easier to maintain. Beyond empirical comparisons, we analyze embedding space, showing that metadata integration improves effectiveness by increasing intra-document cohesion, reducing inter-document confusion, and widening the separation between relevant and irrelevant chunks. Field-level ablations show that structural cues provide strong disambiguating signals. Our code, evaluation framework, and the RAGMATE-10K dataset are publicly hosted.
- Abstract(参考訳): Retrieval-Augmented Generation システムは、大規模言語モデルからの正確な基底出力をサポートするために意味論的に関係のある文書チャンクを取得することに依存する。
規制出願のような構造的かつ反復的なコーパスでは、チャンクの類似性だけでは、重複する言語を持つ文書の区別に失敗することが多い。
実践者はしばしばメタデータをヒューリスティックとして入力テキストに平らにするが、このプラクティスの影響とトレードオフはいまだに理解されていない。
本稿では,メタデータを直接埋め込む手法と平文ベースラインを比較し,メタデータを意識した検索手法の体系的研究を行う。
評価はメタデータ・アズ・テキスト(prefix と suffix)、メタデータとコンテンツを単一のインデックスに融合するデュアルエンコーダ統合埋め込み、デュアルエンコーダ遅延融合検索、メタデータ対応クエリ再構成にまたがる。
複数の検索指標や質問タイプにまたがって、プレフィックスと統合埋め込みは平文ベースラインを一貫して上回り、統一時にはプレフィックスを超え、メンテナンスも容易であることがわかった。
文書内凝集度を増大させ,文書間の混同を低減し,関連するチャンクと無関係なチャンクの分離を広げることで,メタデータの統合が有効性を向上させることを示す。
フィールドレベルのアブレーションは、構造的手がかりが強いあいまいな信号を与えることを示している。
コード、評価フレームワーク、RAGMATE-10Kデータセットが公開されている。
関連論文リスト
- Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。