論文の概要: Long-Context Long-Form Question Answering for Legal Domain
- arxiv url: http://arxiv.org/abs/2602.07190v1
- Date: Fri, 06 Feb 2026 20:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.493013
- Title: Long-Context Long-Form Question Answering for Legal Domain
- Title(参考訳): 法的領域に対する長期質問応答
- Authors: Anagha Kulkarni, Parin Rajesh Jhaveri, Prasha Shrestha, Yu Tong Han, Reza Amini, Behrouz Madahian,
- Abstract要約: 法律文書の慣用性を考慮した長文質問応答の課題を長文回答の文脈で解決する。
本稿では, (a) ソース文書からの検索を改善するために, ドメイン固有語彙を分解し, (b) 複雑な文書レイアウトを解析し, セクションとフットノートを分離し, それらを適切にリンクし, (c) 正確なドメイン固有語彙を用いて包括的回答を生成することのできる質問応答システムを提案する。
- 参考スコア(独自算出の注目度): 1.2776569352615768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal documents have complex document layouts involving multiple nested sections, lengthy footnotes and further use specialized linguistic devices like intricate syntax and domain-specific vocabulary to ensure precision and authority. These inherent characteristics of legal documents make question answering challenging, and particularly so when the answer to the question spans several pages (i.e. requires long-context) and is required to be comprehensive (i.e. a long-form answer). In this paper, we address the challenges of long-context question answering in context of long-form answers given the idiosyncrasies of legal documents. We propose a question answering system that can (a) deconstruct domain-specific vocabulary for better retrieval from source documents, (b) parse complex document layouts while isolating sections and footnotes and linking them appropriately, (c) generate comprehensive answers using precise domain-specific vocabulary. We also introduce a coverage metric that classifies the performance into recall-based coverage categories allowing human users to evaluate the recall with ease. We curate a QA dataset by leveraging the expertise of professionals from fields such as law and corporate tax. Through comprehensive experiments and ablation studies, we demonstrate the usability and merit of the proposed system.
- Abstract(参考訳): 法律文書は、複数のネストされたセクション、長い脚注を含む複雑な文書レイアウトを持ち、さらに複雑な構文やドメイン固有の語彙のような特殊な言語装置を使用して精度と権威を確保する。
これらの法的文書の固有の特徴は、質問に答えることが難しく、特に質問に対する回答が複数のページ(長文)にまたがる場合には、包括的でなければならない(長文の回答)。
本稿では,法文書の慣用性を考慮した長文質問応答の課題について考察する。
質問応答システムを提案する。
(a)ソース文書からの検索を改善するためにドメイン固有の語彙をデコンストラクトする。
b) セクションと脚注を分離し、それらを適切にリンクしながら、複雑な文書レイアウトを解析する。
(c) 正確なドメイン固有語彙を用いて包括的回答を生成する。
また,ユーザによるリコールの容易な評価を可能にするリコールベースのカバレッジカテゴリに,パフォーマンスを分類するカバレッジ指標も導入した。
法律や法人税などの分野から専門家の専門知識を活用することで、QAデータセットをキュレートする。
総合的な実験とアブレーション研究を通じて,提案システムのユーザビリティとメリットを実証する。
関連論文リスト
- Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Exploring the State of the Art in Legal QA Systems [20.178251855026684]
質問応答システム(QA)は、人間の言語で質問された質問に対する回答を生成するように設計されている。
QAには、カスタマーサービス、教育、研究、言語間コミュニケーションなど、さまざまな実践的応用がある。
法分野における質問応答のための14のベンチマークデータセットをレビューする包括的調査を提供する。
論文 参考訳(メタデータ) (2023-04-13T15:48:01Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - Discourse Comprehension: A Question Answering Framework to Represent
Sentence Connections [35.005593397252746]
談話理解のためのモデルの構築と評価における重要な課題は、注釈付きデータの欠如である。
本稿では,ニュース文書の理解を目的としたスケーラブルなデータ収集を実現する新しいパラダイムを提案する。
得られたコーパスDCQAは、607の英語文書からなる22,430の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2021-11-01T04:50:26Z) - Open-Retrieval Conversational Machine Reading [80.13988353794586]
会話機械読解では、システムは自然言語規則を解釈し、ハイレベルな質問に答え、フォローアップの明確化を問う必要がある。
既存の作業では、ルールテキストがユーザ毎の質問に対して提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視する。
本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。
論文 参考訳(メタデータ) (2021-02-17T08:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。