論文の概要: PolicyBot - Reliable Question Answering over Policy Documents
- arxiv url: http://arxiv.org/abs/2511.13489v1
- Date: Mon, 17 Nov 2025 15:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.331659
- Title: PolicyBot - Reliable Question Answering over Policy Documents
- Title(参考訳): PolicyBot - ポリシー文書に関する信頼性の高い質問
- Authors: Gautam Nagarajan, Omir Kumar, Sudarsun Santhiappan,
- Abstract要約: この研究は、ポリシー文書上のユーザクエリに応答するように設計された、検索拡張世代(RAG)システムであるPolicyBotを提示する。
このシステムは、ドメイン固有のセマンティックチャンキング、多言語で密接な埋め込み、複数段階の検索と再ランク付け、ソース・アウェア・ジェネレーションを組み合わせて、元のドキュメントに基盤を置く応答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: All citizens of a country are affected by the laws and policies introduced by their government. These laws and policies serve essential functions for citizens. Such as granting them certain rights or imposing specific obligations. However, these documents are often lengthy, complex, and difficult to navigate, making it challenging for citizens to locate and understand relevant information. This work presents PolicyBot, a retrieval-augmented generation (RAG) system designed to answer user queries over policy documents with a focus on transparency and reproducibility. The system combines domain-specific semantic chunking, multilingual dense embeddings, multi-stage retrieval with reranking, and source-aware generation to provide responses grounded in the original documents. We implemented citation tracing to reduce hallucinations and improve user trust, and evaluated alternative retrieval and generation configurations to identify effective design choices. The end-to-end pipeline is built entirely with open-source tools, enabling easy adaptation to other domains requiring document-grounded question answering. This work highlights design considerations, practical challenges, and lessons learned in deploying trustworthy RAG systems for governance-related contexts.
- Abstract(参考訳): 国のすべての市民は、政府によって導入された法律や政策に影響を受ける。
これらの法律と政策は市民にとって不可欠な機能である。
特定の権利を付与するか、特定の義務を課す。
しかし、これらの文書は、しばしば長く、複雑で、ナビゲートが難しいため、市民が関連する情報を見つけ、理解することは困難である。
この研究は、透明性と再現性を重視した検索拡張世代(RAG)システムであるPolicyBotを提示する。
このシステムは、ドメイン固有のセマンティックチャンキング、多言語で密接な埋め込み、複数段階の検索と再ランク付け、ソース・アウェア・ジェネレーションを組み合わせて、元のドキュメントに基盤を置く応答を提供する。
我々は,幻覚の低減とユーザ信頼の向上のために引用追跡を実装し,効率的な設計選択を識別するための代替検索・生成構成の評価を行った。
エンドツーエンドのパイプラインは、完全にオープンソースツールで構築されており、ドキュメントベースの質問応答を必要とする他のドメインへの適応が容易である。
この作業は、ガバナンス関連のコンテキストに対して信頼できるRAGシステムのデプロイで学んだ設計上の考慮、実践的な課題、教訓を強調します。
関連論文リスト
- Fishing for Answers: Exploring One-shot vs. Iterative Retrieval Strategies for Retrieval Augmented Generation [11.180502261031789]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)に基づく、業界におけるクローズドソース文書の理解とクエリのための強力なソリューションである。
しかしながら、基本的なRAGは、法律および規制領域における複雑なQAタスクに苦しむことが多い。
証拠のカバレッジを改善し、品質に答えるための2つの戦略を探求する。
論文 参考訳(メタデータ) (2025-09-05T05:44:50Z) - All for law and law for all: Adaptive RAG Pipeline for Legal Research [0.8819595592190884]
Retrieval-Augmented Generation (RAG)は、テキスト生成タスクのアプローチ方法を変えました。
この作業では、以前のベースラインを改善した、新しいエンドツーエンドのRAGパイプラインを導入している。
論文 参考訳(メタデータ) (2025-08-18T17:14:03Z) - RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation [35.981443744108255]
本稿ではRichRAGという新しいRAGフレームワークを提案する。
これには、入力された質問の潜在的なサブアスペクトを特定するサブアスペクトエクスプローラー、これらのサブアスペクトに関連する多様な外部文書の候補プールを構築するレトリバー、および生成リストワイズローダが含まれる。
2つの公開データセットの実験結果から,我々のフレームワークがユーザに対して包括的かつ満足な応答を効果的に提供できることが証明された。
論文 参考訳(メタデータ) (2024-06-18T12:52:51Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Design Challenges for a Multi-Perspective Search Engine [44.48345943046946]
我々は、新しい視点指向文書検索パラダイムについて研究する。
目的を達成するために,自然言語理解の課題を議論し,評価する。
我々は,プロトタイプシステムを用いて,我々のパラダイムの有用性を評価する。
論文 参考訳(メタデータ) (2021-12-15T18:59:57Z) - Privacy Policy Question Answering Assistant: A Query-Guided Extractive
Summarization Approach [18.51811191325837]
入力されたユーザクエリに応答して要約を抽出する自動プライバシポリシ質問応答アシスタントを提案する。
なぜなら、ユーザーはプライバシーに関する質問を、ポリシーの法的言語とは全く異なる言語で表現するからだ。
当社のパイプラインでは,プライバシQAデータセットのユーザクエリの89%に対して,回答を見つけています。
論文 参考訳(メタデータ) (2021-09-29T18:00:09Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。