論文の概要: Utilizing Metadata for Better Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.11863v1
- Date: Sat, 17 Jan 2026 01:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.345801
- Title: Utilizing Metadata for Better Retrieval-Augmented Generation
- Title(参考訳): 検索機能向上のためのメタデータの利用
- Authors: Raquib Bin Yousuf, Shengzhe Xu, Mandar Sharma, Andrew Neeser, Chris Latimer, Naren Ramakrishnan,
- Abstract要約: 本稿ではメタデータを意識した検索手法の体系的研究を行う。
平文のベースラインとメタデータを直接埋め込むアプローチを比較します。
プレフィックスと統合埋め込みは、平文ベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 10.865886799087782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation systems depend on retrieving semantically relevant document chunks to support accurate, grounded outputs from large language models. In structured and repetitive corpora such as regulatory filings, chunk similarity alone often fails to distinguish between documents with overlapping language. Practitioners often flatten metadata into input text as a heuristic, but the impact and trade-offs of this practice remain poorly understood. We present a systematic study of metadata-aware retrieval strategies, comparing plain-text baselines with approaches that embed metadata directly. Our evaluation spans metadata-as-text (prefix and suffix), a dual-encoder unified embedding that fuses metadata and content in a single index, dual-encoder late-fusion retrieval, and metadata-aware query reformulation. Across multiple retrieval metrics and question types, we find that prefixing and unified embeddings consistently outperform plain-text baselines, with the unified at times exceeding prefixing while being easier to maintain. Beyond empirical comparisons, we analyze embedding space, showing that metadata integration improves effectiveness by increasing intra-document cohesion, reducing inter-document confusion, and widening the separation between relevant and irrelevant chunks. Field-level ablations show that structural cues provide strong disambiguating signals. Our code, evaluation framework, and the RAGMATE-10K dataset are publicly hosted.
- Abstract(参考訳): Retrieval-Augmented Generation システムは、大規模言語モデルからの正確な基底出力をサポートするために意味論的に関係のある文書チャンクを取得することに依存する。
規制出願のような構造的かつ反復的なコーパスでは、チャンクの類似性だけでは、重複する言語を持つ文書の区別に失敗することが多い。
実践者はしばしばメタデータをヒューリスティックとして入力テキストに平らにするが、このプラクティスの影響とトレードオフはいまだに理解されていない。
本稿では,メタデータを直接埋め込む手法と平文ベースラインを比較し,メタデータを意識した検索手法の体系的研究を行う。
評価はメタデータ・アズ・テキスト(prefix と suffix)、メタデータとコンテンツを単一のインデックスに融合するデュアルエンコーダ統合埋め込み、デュアルエンコーダ遅延融合検索、メタデータ対応クエリ再構成にまたがる。
複数の検索指標や質問タイプにまたがって、プレフィックスと統合埋め込みは平文ベースラインを一貫して上回り、統一時にはプレフィックスを超え、メンテナンスも容易であることがわかった。
文書内凝集度を増大させ,文書間の混同を低減し,関連するチャンクと無関係なチャンクの分離を広げることで,メタデータの統合が有効性を向上させることを示す。
フィールドレベルのアブレーションは、構造的手がかりが強いあいまいな信号を与えることを示している。
コード、評価フレームワーク、RAGMATE-10Kデータセットが公開されている。
関連論文リスト
- Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG [1.4425299138308667]
BM25の文書は、コーパスレベルの重み付けと重なり合う。
大規模なクエリドキュメントデータセットでトレーニングされたエンドツーエンドのマルチモーダルレトリバーは、これらのアプローチよりも大幅に改善されている。
より優れたドキュメント表現がベンチマーク改善の原動力であることを実証する。
論文 参考訳(メタデータ) (2026-03-04T16:21:20Z) - ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting [0.4077787659104315]
検索システムは、ユーザクエリがドメイン文書で使用される言語とスタイリスティックまたは意味的に異なるときに失敗することが多い。
この研究は、データ中心の情報検索における新たな方向性を強調し、フィードバックループとドキュメントスタイルのアライメントがRAGシステムの推論と適応性をいかに高めるかを強調した。
論文 参考訳(メタデータ) (2026-03-02T03:43:53Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis [0.8193467416247519]
レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:09:43Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。