論文の概要: Long-Context Long-Form Question Answering for Legal Domain
- arxiv url: http://arxiv.org/abs/2602.07190v1
- Date: Fri, 06 Feb 2026 20:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.493013
- Title: Long-Context Long-Form Question Answering for Legal Domain
- Title(参考訳): 法的領域に対する長期質問応答
- Authors: Anagha Kulkarni, Parin Rajesh Jhaveri, Prasha Shrestha, Yu Tong Han, Reza Amini, Behrouz Madahian,
- Abstract要約: 法律文書の慣用性を考慮した長文質問応答の課題を長文回答の文脈で解決する。
本稿では, (a) ソース文書からの検索を改善するために, ドメイン固有語彙を分解し, (b) 複雑な文書レイアウトを解析し, セクションとフットノートを分離し, それらを適切にリンクし, (c) 正確なドメイン固有語彙を用いて包括的回答を生成することのできる質問応答システムを提案する。
- 参考スコア(独自算出の注目度): 1.2776569352615768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal documents have complex document layouts involving multiple nested sections, lengthy footnotes and further use specialized linguistic devices like intricate syntax and domain-specific vocabulary to ensure precision and authority. These inherent characteristics of legal documents make question answering challenging, and particularly so when the answer to the question spans several pages (i.e. requires long-context) and is required to be comprehensive (i.e. a long-form answer). In this paper, we address the challenges of long-context question answering in context of long-form answers given the idiosyncrasies of legal documents. We propose a question answering system that can (a) deconstruct domain-specific vocabulary for better retrieval from source documents, (b) parse complex document layouts while isolating sections and footnotes and linking them appropriately, (c) generate comprehensive answers using precise domain-specific vocabulary. We also introduce a coverage metric that classifies the performance into recall-based coverage categories allowing human users to evaluate the recall with ease. We curate a QA dataset by leveraging the expertise of professionals from fields such as law and corporate tax. Through comprehensive experiments and ablation studies, we demonstrate the usability and merit of the proposed system.
- Abstract(参考訳): 法律文書は、複数のネストされたセクション、長い脚注を含む複雑な文書レイアウトを持ち、さらに複雑な構文やドメイン固有の語彙のような特殊な言語装置を使用して精度と権威を確保する。
これらの法的文書の固有の特徴は、質問に答えることが難しく、特に質問に対する回答が複数のページ(長文)にまたがる場合には、包括的でなければならない(長文の回答)。
本稿では,法文書の慣用性を考慮した長文質問応答の課題について考察する。
質問応答システムを提案する。
(a)ソース文書からの検索を改善するためにドメイン固有の語彙をデコンストラクトする。
b) セクションと脚注を分離し、それらを適切にリンクしながら、複雑な文書レイアウトを解析する。
(c) 正確なドメイン固有語彙を用いて包括的回答を生成する。
また,ユーザによるリコールの容易な評価を可能にするリコールベースのカバレッジカテゴリに,パフォーマンスを分類するカバレッジ指標も導入した。
法律や法人税などの分野から専門家の専門知識を活用することで、QAデータセットをキュレートする。
総合的な実験とアブレーション研究を通じて,提案システムのユーザビリティとメリットを実証する。
関連論文リスト
- PolicyBot - Reliable Question Answering over Policy Documents [0.0]
この研究は、ポリシー文書上のユーザクエリに応答するように設計された、検索拡張世代(RAG)システムであるPolicyBotを提示する。
このシステムは、ドメイン固有のセマンティックチャンキング、多言語で密接な埋め込み、複数段階の検索と再ランク付け、ソース・アウェア・ジェネレーションを組み合わせて、元のドキュメントに基盤を置く応答を提供する。
論文 参考訳(メタデータ) (2025-11-17T15:26:10Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP [32.19010113355365]
異なるタスクをコンテキスト長で膨らませることは、生産的ではないと我々は主張する。
我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。
必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。
論文 参考訳(メタデータ) (2024-06-29T11:09:47Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Exploring the State of the Art in Legal QA Systems [20.178251855026684]
質問応答システム(QA)は、人間の言語で質問された質問に対する回答を生成するように設計されている。
QAには、カスタマーサービス、教育、研究、言語間コミュニケーションなど、さまざまな実践的応用がある。
法分野における質問応答のための14のベンチマークデータセットをレビューする包括的調査を提供する。
論文 参考訳(メタデータ) (2023-04-13T15:48:01Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - How Do We Answer Complex Questions: Discourse Structure of Long-form
Answers [51.973363804064704]
3つのデータセットから収集した長文回答の機能構造について検討した。
私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。
我々の研究は、長期QAシステムの談話レベルのモデリングと評価に関する将来の研究に刺激を与えることができる。
論文 参考訳(メタデータ) (2022-03-21T15:14:10Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - Open-Retrieval Conversational Machine Reading [80.13988353794586]
会話機械読解では、システムは自然言語規則を解釈し、ハイレベルな質問に答え、フォローアップの明確化を問う必要がある。
既存の作業では、ルールテキストがユーザ毎の質問に対して提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視する。
本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。
論文 参考訳(メタデータ) (2021-02-17T08:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。