論文の概要: Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment
- arxiv url: http://arxiv.org/abs/2306.04841v1
- Date: Thu, 8 Jun 2023 00:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:03:37.707613
- Title: Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment
- Title(参考訳): ベトナムの法的問題の改善-自動データ強化に基づく回答システム
- Authors: Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen,
and Xuan-Hieu Phan
- Abstract要約: 本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。
我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
- 参考スコア(独自算出の注目度): 2.56085064991751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering (QA) in law is a challenging problem because legal
documents are much more complicated than normal texts in terms of terminology,
structure, and temporal and logical relationships. It is even more difficult to
perform legal QA for low-resource languages like Vietnamese where labeled data
are rare and pre-trained language models are still limited. In this paper, we
try to overcome these limitations by implementing a Vietnamese article-level
retrieval-based legal QA system and introduce a novel method to improve the
performance of language models by improving data quality through weak labeling.
Our hypothesis is that in contexts where labeled data are limited, efficient
data enrichment can help increase overall performance. Our experiments are
designed to test multiple aspects, which demonstrate the effectiveness of the
proposed technique.
- Abstract(参考訳): 法律における質問応答(qa)は、用語、構造、時間的および論理的関係の観点から、法律文書が通常のテキストよりもはるかに複雑であるため、難しい問題である。
ラベル付きデータはまれで、事前訓練済みの言語モデルはまだ限られているベトナムのような低リソース言語で法的qaを行うのはさらに困難である。
本稿では,ベトナムの記事レベルの検索に基づく法的qaシステムを実装し,弱いラベリングによるデータ品質の向上により,言語モデルの性能を向上させる新しい手法を提案する。
私たちの仮説は、ラベル付きデータが限られている状況では、効率的なデータエンリッチメントが全体的なパフォーマンス向上に役立ちます。
本実験は,提案手法の有効性を実証する多面的な実験である。
関連論文リスト
- Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - InfoLossQA: Characterizing and Recovering Information Loss in Text
Simplification [62.61201551494709]
本研究は, 簡易化による情報損失を問合せ・問合せ形式で特徴づけ, 回復する枠組みを提案する。
QAペアは、読者がテキストの知識を深めるのに役立つように設計されている。
論文 参考訳(メタデータ) (2024-01-29T19:00:01Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。