Fugu-MT 論文翻訳(概要): Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment

論文の概要: Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment

arxiv url: http://arxiv.org/abs/2306.04841v1
Date: Thu, 8 Jun 2023 00:24:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 17:03:37.707613
Title: Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment
Title（参考訳）: ベトナムの法的問題の改善-自動データ強化に基づく回答システム
Authors: Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen, and Xuan-Hieu Phan
Abstract要約: 本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
参考スコア（独自算出の注目度）: 2.56085064991751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Question answering (QA) in law is a challenging problem because legal documents are much more complicated than normal texts in terms of terminology, structure, and temporal and logical relationships. It is even more difficult to perform legal QA for low-resource languages like Vietnamese where labeled data are rare and pre-trained language models are still limited. In this paper, we try to overcome these limitations by implementing a Vietnamese article-level retrieval-based legal QA system and introduce a novel method to improve the performance of language models by improving data quality through weak labeling. Our hypothesis is that in contexts where labeled data are limited, efficient data enrichment can help increase overall performance. Our experiments are designed to test multiple aspects, which demonstrate the effectiveness of the proposed technique.
Abstract（参考訳）: 法律における質問応答(qa)は、用語、構造、時間的および論理的関係の観点から、法律文書が通常のテキストよりもはるかに複雑であるため、難しい問題である。ラベル付きデータはまれで、事前訓練済みの言語モデルはまだ限られているベトナムのような低リソース言語で法的qaを行うのはさらに困難である。本稿では,ベトナムの記事レベルの検索に基づく法的qaシステムを実装し,弱いラベリングによるデータ品質の向上により,言語モデルの性能を向上させる新しい手法を提案する。私たちの仮説は、ラベル付きデータが限られている状況では、効率的なデータエンリッチメントが全体的なパフォーマンス向上に役立ちます。本実験は,提案手法の有効性を実証する多面的な実験である。

関連論文リスト

ViHERMES: A Graph-Grounded Multihop Question Answering Benchmark and System for Vietnamese Healthcare Regulations [0.0]
ViHERMESはベトナムの医療規制文書に対するマルチホップQAのためのベンチマークである。このデータセットを構築するために,セマンティッククラスタリングとグラフに着想を得たデータマイニングに基づくマルチホップQA生成パイプラインを提案する。本稿では,法単位レベルでの形式的法的関係をモデル化するグラフ対応検索フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-07T04:59:31Z)
VLQA: The First Comprehensive, Large, and High-Quality Vietnamese Dataset for Legal Question Answering [4.546567493379192]
ベトナムの法律ドメインに適した包括的で高品質なリソースであるVLQAデータセットを紹介した。また、データセットの包括的統計分析を行い、その有効性を評価する。
論文参考訳（メタデータ） (2025-07-26T16:26:50Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
QA-prompting: Improving Summarization with Large Language Models using Question-Answering [0.0]
言語モデル(LM)は自然言語処理に革命をもたらし、プロンプトやテキスト内学習を通じて高品質なテキスト生成を可能にした。本稿では,質問応答を要約生成の中間段階として利用する要約の簡易なプロンプト手法であるQA-promptingを提案する。提案手法はキー情報を抽出し,テキストのコンテキストを強化して位置バイアスを緩和し,タスク毎の単一LMコールにおける要約を改善する。
論文参考訳（メタデータ） (2025-05-20T13:29:36Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations [3.735112400244042]
Visual Question Answering (VQA)は、テキスト入力と視覚入力をまたいだ推論を必要とするマルチモーダルタスクである。従来の手法は、広範囲の注釈付きデータセット、計算コストの高いパイプライン、大規模な事前訓練されたモデルに大きく依存することが多い。パラフレーズベースの機能拡張モジュールと動的カリキュラム学習戦略を組み合わせたトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-05T09:12:16Z)
Lean-ing on Quality: How High-Quality Data Beats Diverse Multilingual Data in AutoFormalization [1.204553980682492]
本稿では,言語モデルの数学的能力を高めるために,手書きのプロンプトを用いた逆翻訳を利用する新しい手法を提案する。提案手法は,広範囲な多言語データセットを用いた微調整性能を上回ることを示す。まとめると、我々の手法は、形式化に必要なリソースを大幅に削減し、数学のためのAIを加速する、有望な新しいアプローチを示す。
論文参考訳（メタデータ） (2025-02-18T19:16:54Z)
Improving Vietnamese Legal Document Retrieval using Synthetic Data [0.0]
大きな注釈付きデータセットの不足は、特にベトナムの法律文書にとって大きな課題となっている。本稿では,ベトナムの法律文に対する高品質で多様な合成クエリを生成するために,大規模言語モデルを活用した新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-12-01T03:28:26Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文参考訳（メタデータ） (2024-09-05T02:34:05Z)
Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文参考訳（メタデータ） (2024-05-17T11:22:27Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification [60.10193972862099]
本研究は, 簡易化による情報損失を問合せ・問合せ形式で特徴づけ, 回復する枠組みを提案する。 QAペアは、読者がテキストの知識を深めるのに役立つように設計されている。
論文参考訳（メタデータ） (2024-01-29T19:00:01Z)
Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。実験結果から,自動評価指標について有望な性能を示した。 LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文参考訳（メタデータ） (2023-09-29T08:23:19Z)
Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-12-13T01:37:27Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文参考訳（メタデータ） (2022-06-30T09:49:53Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
Conditioned Text Generation with Transfer for Closed-Domain Dialogue Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文参考訳（メタデータ） (2020-11-03T14:06:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。