論文の概要: Pre-training, Fine-tuning and Re-ranking: A Three-Stage Framework for Legal Question Answering
- arxiv url: http://arxiv.org/abs/2412.19482v1
- Date: Fri, 27 Dec 2024 06:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:05.283113
- Title: Pre-training, Fine-tuning and Re-ranking: A Three-Stage Framework for Legal Question Answering
- Title(参考訳): 事前学習, 微調整, 再評価: 法的質問応答のための3段階フレームワーク
- Authors: Shiwen Ni, Hao Cheng, Min Yang,
- Abstract要約: 法的質問応答(QA)は、法的助言を求める人々から注目を集めている。
従来の手法では、主に二重エンコーダアーキテクチャを使用して、質問と回答の密集した表現を学習していた。
本稿では,アンダーラインプレトレーニング,アンダーラインファインチューニング,アンダーラインレグレードのための3段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.948737566388036
- License:
- Abstract: Legal question answering (QA) has attracted increasing attention from people seeking legal advice, which aims to retrieve the most applicable answers from a large-scale database of question-answer pairs. Previous methods mainly use a dual-encoder architecture to learn dense representations of both questions and answers. However, these methods could suffer from lacking domain knowledge and sufficient labeled training data. In this paper, we propose a three-stage (\underline{p}re-training, \underline{f}ine-tuning and \underline{r}e-ranking) framework for \underline{l}egal \underline{QA} (called PFR-LQA), which promotes the fine-grained text representation learning and boosts the performance of dense retrieval with the dual-encoder architecture. Concretely, we first conduct domain-specific pre-training on legal questions and answers through a self-supervised training objective, allowing the pre-trained model to be adapted to the legal domain. Then, we perform task-specific fine-tuning of the dual-encoder on legal question-answer pairs by using the supervised learning objective, leading to a high-quality dual-encoder for the specific downstream QA task. Finally, we employ a contextual re-ranking objective to further refine the output representations of questions produced by the document encoder, which uses contextual similarity to increase the discrepancy between the anchor and hard negative samples for better question re-ranking. We conduct extensive experiments on a manually annotated legal QA dataset. Experimental results show that our PFR-LQA method achieves better performance than the strong competitors for legal question answering.
- Abstract(参考訳): 法的な質問応答(QA)は,質問対の大規模データベースから最も有効な回答を回収することを目的として,法的助言を求める人々から注目を集めている。
従来の手法では、主に二重エンコーダアーキテクチャを使用して、質問と回答の密集した表現を学習していた。
しかし、これらの手法はドメイン知識の欠如と十分なラベル付きトレーニングデータに悩まされる可能性がある。
本稿では、細粒度テキスト表現学習を促進し、デュアルエンコーダアーキテクチャによる高密度検索の性能を高める3段階(\underline{p}re-training, \underline{f}ine-tuning and \underline{r}e-level)フレームワークを提案する。
具体的には、まず、自己指導型トレーニング目標を通じて、法的質問や回答に基づいてドメイン固有の事前訓練を行い、事前訓練されたモデルが法的ドメインに適応できるようにする。
そして、教師付き学習目標を用いて、法的な問合せ対における二重エンコーダのタスク固有の微調整を行い、特定の下流QAタスクに対して高品質な二重エンコーダを実現する。
最後に,文書エンコーダが生成する質問の出力表現をさらに洗練するため,文脈的類似性を用いて,アンカーとハード負のサンプルとの差を増大させ,より優れた質問の再ランク付けを行う。
我々は手動で注釈付き法定QAデータセットについて広範な実験を行った。
実験の結果,PFR-LQA法は,法的な質問応答のための強力な競合相手よりも優れた性能を示すことがわかった。
関連論文リスト
- FiTs: Fine-grained Two-stage Training for Knowledge-aware Question
Answering [47.495991137191425]
本稿では, KAQAシステム性能を向上させるための微細な2段階トレーニングフレームワーク (FiT) を提案する。
第1段階は、PLMとKGからの表現の整列を目標とし、それらの間のモダリティギャップを埋めることである。
第2段階はナレッジ・アウェア・ファインチューニングと呼ばれ、モデルの共同推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2023-02-23T06:25:51Z) - Socratic Pretraining: Question-Driven Pretraining for Controllable
Summarization [89.04537372465612]
ソクラティック事前訓練は、要約タスクにおける制御性を改善するために設計された、質問駆動で教師なし事前訓練の目的である。
以上の結果から,Socraticプレトレーニングはタスク固有のラベル付きデータ要件を半分に削減することがわかった。
論文 参考訳(メタデータ) (2022-12-20T17:27:10Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Miko Team: Deep Learning Approach for Legal Question Answering in ALQAC
2022 [2.242125769416219]
ALQAC2022(Automated Legal Question Answering Competition)において,効率的な深層学習に基づく法文書処理手法を導入する。
本手法は,XLM-RoBERTaモデルに基づいて,多数の未ラベルコーパスから事前学習を行い,そのタスクを微調整する。
実験結果から,本手法は限定ラベル付きデータを用いた法的な検索情報処理に有効であることがわかった。
論文 参考訳(メタデータ) (2022-11-04T00:50:20Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Enhancing Dual-Encoders with Question and Answer Cross-Embeddings for
Answer Retrieval [29.16807969384253]
デュアルエンコーダは質問応答システム(QA)における回答検索のための有望なメカニズムである。
質問応答のクロス埋め込みと新しい幾何アライメント機構(GAM)を備えたデュアルエンコーダモデルを構築するためのフレームワークを提案する。
本フレームワークはDual-Encodersモデルを大幅に改善し,複数の回答検索データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-06-07T02:39:24Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Joint Answering and Explanation for Visual Commonsense Reasoning [46.44588492897933]
Visual Commonsense Reasoningは、よりハイレベルな視覚的理解を追求する試みである。
与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。
本稿では,質問応答と推論プロセスの合理化を両立させるための知識蒸留強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-25T11:26:52Z) - Weakly Supervised Pre-Training for Multi-Hop Retriever [23.79574380039197]
本研究では,人的努力を伴わない,弱教師付きマルチホップレトリバーの事前学習手法を提案する。
提案手法は,1)複雑な質問のベクトル表現を生成するための事前学習タスク,2)厳密なエンコーダに基づく事前学習モデル構造として,質問とサブクエストのネスト構造を生成するスケーラブルなデータ生成手法を含む。
論文 参考訳(メタデータ) (2021-06-18T08:06:02Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - Unsupervised Alignment-based Iterative Evidence Retrieval for Multi-hop
Question Answering [40.58976291178477]
本稿では,単純で高速かつ教師なしの反復的証拠検索手法を提案する。
その単純さにもかかわらず,提案手法はエビデンス選択タスクにおいて,従来の手法よりも優れていた。
これらのエビデンス文をRoBERTaの回答分類コンポーネントに入力すると、最先端のQA性能が得られる。
論文 参考訳(メタデータ) (2020-05-04T00:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。