論文の概要: KohakuRAG: A simple RAG framework with hierarchical document indexing
- arxiv url: http://arxiv.org/abs/2603.07612v1
- Date: Sun, 08 Mar 2026 12:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.909674
- Title: KohakuRAG: A simple RAG framework with hierarchical document indexing
- Title(参考訳): Kohakurag: 階層的なドキュメントインデックス機能を備えたシンプルなRAGフレームワーク
- Authors: Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu,
- Abstract要約: 文書構造を4段階のツリー表現で保存する階層型RAGフレームワークであるKohakuragを提案する。
われわれはWattBot 2025 Challengeの評価を行った。これは32の文書から技術的質問に答えるシステムを必要とするベンチマークである。
- 参考スコア(独自算出の注目度): 1.0844295385744671
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems that answer questions from document collections face compounding difficulties when high-precision citations are required: flat chunking strategies sacrifice document structure, single-query formulations miss relevant passages through vocabulary mismatch, and single-pass inference produces stochastic answers that vary in both content and citation selection. We present KohakuRAG, a hierarchical RAG framework that preserves document structure through a four-level tree representation (document $\rightarrow$ section $\rightarrow$ paragraph $\rightarrow$ sentence) with bottom-up embedding aggregation, improves retrieval coverage through an LLM-powered query planner with cross-query reranking, and stabilizes answers through ensemble inference with abstention-aware voting. We evaluate on the WattBot 2025 Challenge, a benchmark requiring systems to answer technical questions from 32 documents with $\pm$0.1% numeric tolerance and exact source attribution. KohakuRAG achieves first place on both public and private leaderboards (final score 0.861), as the only team to maintain the top position across both evaluation partitions. Ablation studies reveal that prompt ordering (+80% relative), retry mechanisms (+69%), and ensemble voting with blank filtering (+1.2pp) each contribute substantially, while hierarchical dense retrieval alone matches hybrid sparse-dense approaches (BM25 adds only +3.1pp). We release KohakuRAG as open-source software at https://github.com/KohakuBlueleaf/KohakuRAG.
- Abstract(参考訳): 平坦なチャンキング戦略は文書構造を犠牲にし、単一クエリの定式化は語彙ミスマッチによる関連通路を見逃し、単一パス推論は内容と引用選択の両方で異なる確率的回答を生成する。
階層的なRAGフレームワークであるKohakuRAGについて述べる。文書構造を4段階のツリー表現(ドキュメント$\rightarrow$ section $\rightarrow$ paragraph $\rightarrow$ sentence)でボトムアップ埋め込みアグリゲーションで保存し、クロスクエリでLLMを利用したクエリプランナによる検索カバレッジを改善し、無意識投票によるアンサンブル推論によって回答を安定化する。
We evaluate on the WattBot 2025 Challenge,このベンチマークは、32の文書から、$\pm$0.1%の数値耐性と正確なソース属性を持つ技術的質問に答えるシステムを必要とするベンチマークである。
公立と私設のリーダーボード(最終スコア0.861)で1位を獲得し、両評価パーティションで最高位を維持した唯一のチームとなった。
アブレーション研究では、即時順序付け (+80%) 、再試行機構 (+69%) 、およびブランクフィルタリング (+1.2pp) によるアンサンブル投票 (+1.2pp) がそれぞれ大きく寄与し、階層的密度の高い検索だけではハイブリッドスパース・デンス・アプローチと一致する(BM25では+3.1ppしか加算されない)。
我々はKohakuRAGをhttps://github.com/KohakuBlueleaf/KohakuRAGでオープンソースソフトウェアとしてリリースする。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Aggregation Queries over Unstructured Text: Benchmark and Agentic Method [20.80318496130298]
我々は、厳密な完全性を必要とするコーパス境界設定において、テキスト上のエンティティレベルアグリゲーションを形式化する。
AGGBenchは、現実的な大規模コーパスの下で完全性指向のアグリゲーションを評価するために設計されたベンチマークである。
DFAはモジュール型のエージェントベースラインで、集約クエリを解釈可能なステージに分解する。
論文 参考訳(メタデータ) (2026-02-01T17:49:33Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - DeAR: Dual-Stage Document Reranking with Reasoning Agents via LLM Distillation [26.719288314007002]
大規模言語モデル(LLM)は、候補集合に対する大域的推論を可能にすることで、リストワイズドキュメントの優先順位を変更している。
textbfDeeptextbfAgenttextbfRank(textbfDeAR)を提案する。
論文 参考訳(メタデータ) (2025-08-23T11:46:08Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [9.173952465423966]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。
この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。
本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T11:08:23Z) - $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity [88.78750571970232]
本稿では,クエリ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介する。
$texttMixGR$は、粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
論文 参考訳(メタデータ) (2024-07-15T13:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。