論文の概要: LARAG: Link-Aware Retrieval Strategy for RAG Systems in Hyperlinked Technical Documentation
- arxiv url: http://arxiv.org/abs/2605.07517v1
- Date: Fri, 08 May 2026 09:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.974591
- Title: LARAG: Link-Aware Retrieval Strategy for RAG Systems in Hyperlinked Technical Documentation
- Title(参考訳): LARAG:ハイパーリンク技術文書におけるRAGシステムのリンク対応検索戦略
- Authors: Giorgia Bolognesi, Claudio Estatico, Ulderico Fugacci, Isabella Mastroianni, Claudio Muselli, Luca Oneto,
- Abstract要約: LARAG (Link-Aware RAG) は、HTMLドキュメントの著者定義ハイパーリンク構造を利用する軽量なリンク対応検索戦略である。
LARAGは応答品質を継続的に改善し、BERTScore F1を最高に達成し、チャンクを減らし、トークンを減らした。
- 参考スコア(独自算出の注目度): 1.0976267899372834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances the factual grounding of Large Language Models by conditioning their outputs on external documents. However, standard embedding-based retrievers treat naturally structured corpora, such as technical manuals, as flat collections of passages, thereby overlooking the hyperlink topology that users rely on when navigating such content. We introduce LARAG (Link-Aware RAG): a lightweight, link-aware retrieval strategy that leverages the author-defined hyperlink structure already present in HTML documentation, encoding hyperlink relations as metadata in the chunk representations and exploiting them to perform a form of graph-like retrieval of locally relevant content. In a benchmark of twenty expert-designed queries over Rulex Platform technical documentation and four prompting strategies, LARAG consistently improves answer quality, achieving the highest BERTScore F1, while retrieving fewer chunks and generating fewer tokens than a baseline RAG architecture used for comparison. These results show that directly leveraging the existing hyperlink topology of technical documentation, even without explicit graph construction or inference, enables an implicit form of graph-like retrieval that yields a more faithful and efficient RAG pipeline, providing better grounding at lower cost.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部文書に出力を条件付けすることで、大規模言語モデルの現実的な基盤を強化する。
しかし, 標準的な埋め込み型レトリバーは, 技術マニュアルなどの自然に構築されたコーパスを平らな通路の集合として扱うため, ユーザがそのようなコンテンツをナビゲートする際に依存するハイパーリンクトポロジーを見渡すことができる。
LARAG (Link-Aware RAG) は、HTMLドキュメントにすでに存在する著者定義のハイパーリンク構造を利用して、チャンク表現のメタデータとしてハイパーリンク関係を符号化し、それらを利用して、局所的な関連コンテンツのグラフライクな検索を行う軽量なリンク対応検索戦略である。
Rulex Platformの技術ドキュメントと4つのプロンプト戦略に関する20のエキスパート設計クエリのベンチマークにおいて、LARAGは一貫して回答の品質を改善し、最高であるBERTScore F1を達成すると同時に、チャンクを減らし、比較に使用するベースラインRAGアーキテクチャよりも少ないトークンを生成する。
これらの結果は、明示的なグラフ構築や推論がなくても、既存の技術ドキュメントのハイパーリンクトポロジを直接活用することで、グラフのような暗黙的な形式の検索が可能になり、より忠実で効率的なRAGパイプラインが得られ、低コストでより良い基盤を提供することを示している。
関連論文リスト
- NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation [50.16741209529908]
NaviRAGは、パッシブセグメント検索からアクティブな知識ナビゲーションに移行する新しいフレームワークである。
NaviRAGは従来のRAGベースラインよりも検索リコールとエンドツーエンドの応答性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2026-04-14T14:07:01Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - PathRAG: Pruning Graph-based Retrieval Augmented Generation with Relational Paths [42.01377074786958]
Retrieval-augmented Generation (RAG)は、外部データベースから知識を取得することで、大規模言語モデル(LLM)の応答品質を改善する。
本稿では、インデックス化グラフから重要な関係経路を検索し、これらの経路をテキスト形式に変換してLLMを誘導するPathRAGを提案する。
PathRAGは、6つのデータセットと5つの評価次元で、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-02-18T11:18:55Z) - ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation [16.204046295248546]
Retrieval-Augmented Generation (RAG) は、外部知識を大規模言語モデルに統合するのに有効であることが証明されている。
我々は、Attributed Community-based Hierarchical RAG (ArchRAG)と呼ばれる新しいグラフベースのRAGアプローチを導入する。
属性付きコミュニティのための新しい階層型インデックス構造を構築し,効果的なオンライン検索手法を開発した。
論文 参考訳(メタデータ) (2025-02-14T03:28:36Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。