論文の概要: PolicyBot - Reliable Question Answering over Policy Documents
- arxiv url: http://arxiv.org/abs/2511.13489v1
- Date: Mon, 17 Nov 2025 15:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.331659
- Title: PolicyBot - Reliable Question Answering over Policy Documents
- Title(参考訳): PolicyBot - ポリシー文書に関する信頼性の高い質問
- Authors: Gautam Nagarajan, Omir Kumar, Sudarsun Santhiappan,
- Abstract要約: この研究は、ポリシー文書上のユーザクエリに応答するように設計された、検索拡張世代(RAG)システムであるPolicyBotを提示する。
このシステムは、ドメイン固有のセマンティックチャンキング、多言語で密接な埋め込み、複数段階の検索と再ランク付け、ソース・アウェア・ジェネレーションを組み合わせて、元のドキュメントに基盤を置く応答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: All citizens of a country are affected by the laws and policies introduced by their government. These laws and policies serve essential functions for citizens. Such as granting them certain rights or imposing specific obligations. However, these documents are often lengthy, complex, and difficult to navigate, making it challenging for citizens to locate and understand relevant information. This work presents PolicyBot, a retrieval-augmented generation (RAG) system designed to answer user queries over policy documents with a focus on transparency and reproducibility. The system combines domain-specific semantic chunking, multilingual dense embeddings, multi-stage retrieval with reranking, and source-aware generation to provide responses grounded in the original documents. We implemented citation tracing to reduce hallucinations and improve user trust, and evaluated alternative retrieval and generation configurations to identify effective design choices. The end-to-end pipeline is built entirely with open-source tools, enabling easy adaptation to other domains requiring document-grounded question answering. This work highlights design considerations, practical challenges, and lessons learned in deploying trustworthy RAG systems for governance-related contexts.
- Abstract(参考訳): 国のすべての市民は、政府によって導入された法律や政策に影響を受ける。
これらの法律と政策は市民にとって不可欠な機能である。
特定の権利を付与するか、特定の義務を課す。
しかし、これらの文書は、しばしば長く、複雑で、ナビゲートが難しいため、市民が関連する情報を見つけ、理解することは困難である。
この研究は、透明性と再現性を重視した検索拡張世代(RAG)システムであるPolicyBotを提示する。
このシステムは、ドメイン固有のセマンティックチャンキング、多言語で密接な埋め込み、複数段階の検索と再ランク付け、ソース・アウェア・ジェネレーションを組み合わせて、元のドキュメントに基盤を置く応答を提供する。
我々は,幻覚の低減とユーザ信頼の向上のために引用追跡を実装し,効率的な設計選択を識別するための代替検索・生成構成の評価を行った。
エンドツーエンドのパイプラインは、完全にオープンソースツールで構築されており、ドキュメントベースの質問応答を必要とする他のドメインへの適応が容易である。
この作業は、ガバナンス関連のコンテキストに対して信頼できるRAGシステムのデプロイで学んだ設計上の考慮、実践的な課題、教訓を強調します。
関連論文リスト
- DAVE: A Policy-Enforcing LLM Spokesperson for Secure Multi-Document Data Sharing [0.0]
DAVEは利用ポリシーを強制するスポークスパーソンで、データプロバイダに代わってプライベートドキュメントに関する質問に答える。
我々は、この設定でポリシー違反の情報開示を形式化し、利用制御と情報フローのセキュリティに基づく。
当社のコントリビューションは主にアーキテクチャです – 完全な実行パイプラインの実装や試験的な評価は行いません。
論文 参考訳(メタデータ) (2026-02-19T14:43:48Z) - Long-Context Long-Form Question Answering for Legal Domain [1.2776569352615768]
法律文書の慣用性を考慮した長文質問応答の課題を長文回答の文脈で解決する。
本稿では, (a) ソース文書からの検索を改善するために, ドメイン固有語彙を分解し, (b) 複雑な文書レイアウトを解析し, セクションとフットノートを分離し, それらを適切にリンクし, (c) 正確なドメイン固有語彙を用いて包括的回答を生成することのできる質問応答システムを提案する。
論文 参考訳(メタデータ) (2026-02-06T20:51:13Z) - Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models [13.70855540464427]
我々は、厳密な非開示ポリシーの下で、異質な視覚的およびテキスト的要素の推論を必要とする実世界のレポートから構築された新しいベンチマークDoc-PPを紹介する。
モデルでは、複雑な合成によって答えが推測されなければならない場合や、モダリティにまたがって集約された場合、機密情報を頻繁にリークする。
政策検証から推論を分離する構造推論フレームワークであるDVAを提案する。
論文 参考訳(メタデータ) (2026-01-07T13:45:39Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Fishing for Answers: Exploring One-shot vs. Iterative Retrieval Strategies for Retrieval Augmented Generation [11.180502261031789]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)に基づく、業界におけるクローズドソース文書の理解とクエリのための強力なソリューションである。
しかしながら、基本的なRAGは、法律および規制領域における複雑なQAタスクに苦しむことが多い。
証拠のカバレッジを改善し、品質に答えるための2つの戦略を探求する。
論文 参考訳(メタデータ) (2025-09-05T05:44:50Z) - All for law and law for all: Adaptive RAG Pipeline for Legal Research [0.8819595592190884]
Retrieval-Augmented Generation (RAG)は、テキスト生成タスクのアプローチ方法を変えました。
この作業では、以前のベースラインを改善した、新しいエンドツーエンドのRAGパイプラインを導入している。
論文 参考訳(メタデータ) (2025-08-18T17:14:03Z) - RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation [35.981443744108255]
本稿ではRichRAGという新しいRAGフレームワークを提案する。
これには、入力された質問の潜在的なサブアスペクトを特定するサブアスペクトエクスプローラー、これらのサブアスペクトに関連する多様な外部文書の候補プールを構築するレトリバー、および生成リストワイズローダが含まれる。
2つの公開データセットの実験結果から,我々のフレームワークがユーザに対して包括的かつ満足な応答を効果的に提供できることが証明された。
論文 参考訳(メタデータ) (2024-06-18T12:52:51Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Design Challenges for a Multi-Perspective Search Engine [44.48345943046946]
我々は、新しい視点指向文書検索パラダイムについて研究する。
目的を達成するために,自然言語理解の課題を議論し,評価する。
我々は,プロトタイプシステムを用いて,我々のパラダイムの有用性を評価する。
論文 参考訳(メタデータ) (2021-12-15T18:59:57Z) - Privacy Policy Question Answering Assistant: A Query-Guided Extractive
Summarization Approach [18.51811191325837]
入力されたユーザクエリに応答して要約を抽出する自動プライバシポリシ質問応答アシスタントを提案する。
なぜなら、ユーザーはプライバシーに関する質問を、ポリシーの法的言語とは全く異なる言語で表現するからだ。
当社のパイプラインでは,プライバシQAデータセットのユーザクエリの89%に対して,回答を見つけています。
論文 参考訳(メタデータ) (2021-09-29T18:00:09Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。