論文の概要: Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment
- arxiv url: http://arxiv.org/abs/2306.04841v1
- Date: Thu, 8 Jun 2023 00:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:03:37.707613
- Title: Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment
- Title(参考訳): ベトナムの法的問題の改善-自動データ強化に基づく回答システム
- Authors: Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen,
and Xuan-Hieu Phan
- Abstract要約: 本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。
我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
- 参考スコア(独自算出の注目度): 2.56085064991751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering (QA) in law is a challenging problem because legal
documents are much more complicated than normal texts in terms of terminology,
structure, and temporal and logical relationships. It is even more difficult to
perform legal QA for low-resource languages like Vietnamese where labeled data
are rare and pre-trained language models are still limited. In this paper, we
try to overcome these limitations by implementing a Vietnamese article-level
retrieval-based legal QA system and introduce a novel method to improve the
performance of language models by improving data quality through weak labeling.
Our hypothesis is that in contexts where labeled data are limited, efficient
data enrichment can help increase overall performance. Our experiments are
designed to test multiple aspects, which demonstrate the effectiveness of the
proposed technique.
- Abstract(参考訳): 法律における質問応答(qa)は、用語、構造、時間的および論理的関係の観点から、法律文書が通常のテキストよりもはるかに複雑であるため、難しい問題である。
ラベル付きデータはまれで、事前訓練済みの言語モデルはまだ限られているベトナムのような低リソース言語で法的qaを行うのはさらに困難である。
本稿では,ベトナムの記事レベルの検索に基づく法的qaシステムを実装し,弱いラベリングによるデータ品質の向上により,言語モデルの性能を向上させる新しい手法を提案する。
私たちの仮説は、ラベル付きデータが限られている状況では、効率的なデータエンリッチメントが全体的なパフォーマンス向上に役立ちます。
本実験は,提案手法の有効性を実証する多面的な実験である。
関連論文リスト
- Optimizing Multi-Stage Language Models for Effective Text Retrieval [0.0]
本稿では,日本語の法的データセットに最適化された2相テキスト検索パイプラインを提案する。
提案手法は,高度な言語モデルを用いて最先端の性能を実現する。
堅牢性と適応性をさらに向上するため,複数の検索戦略を統合するアンサンブルモデルを組み込んだ。
論文 参考訳(メタデータ) (2024-12-26T16:05:19Z) - Improving Vietnamese Legal Document Retrieval using Synthetic Data [0.0]
大きな注釈付きデータセットの不足は、特にベトナムの法律文書にとって大きな課題となっている。
本稿では,ベトナムの法律文に対する高品質で多様な合成クエリを生成するために,大規模言語モデルを活用した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-01T03:28:26Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文 参考訳(メタデータ) (2024-09-05T02:34:05Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification [60.10193972862099]
本研究は, 簡易化による情報損失を問合せ・問合せ形式で特徴づけ, 回復する枠組みを提案する。
QAペアは、読者がテキストの知識を深めるのに役立つように設計されている。
論文 参考訳(メタデータ) (2024-01-29T19:00:01Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。