論文の概要: Improving Vietnamese Legal Document Retrieval using Synthetic Data
- arxiv url: http://arxiv.org/abs/2412.00657v1
- Date: Sun, 01 Dec 2024 03:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:29.007214
- Title: Improving Vietnamese Legal Document Retrieval using Synthetic Data
- Title(参考訳): 合成データを用いたベトナムの法的文書検索の改善
- Authors: Son Pham Tien, Hieu Nguyen Doan, An Nguyen Dai, Sang Dinh Viet,
- Abstract要約: 大きな注釈付きデータセットの不足は、特にベトナムの法律文書にとって大きな課題となっている。
本稿では,ベトナムの法律文に対する高品質で多様な合成クエリを生成するために,大規模言語モデルを活用した新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the field of legal information retrieval, effective embedding-based models are essential for accurate question-answering systems. However, the scarcity of large annotated datasets poses a significant challenge, particularly for Vietnamese legal texts. To address this issue, we propose a novel approach that leverages large language models to generate high-quality, diverse synthetic queries for Vietnamese legal passages. This synthetic data is then used to pre-train retrieval models, specifically bi-encoder and ColBERT, which are further fine-tuned using contrastive loss with mined hard negatives. Our experiments demonstrate that these enhancements lead to strong improvement in retrieval accuracy, validating the effectiveness of synthetic data and pre-training techniques in overcoming the limitations posed by the lack of large labeled datasets in the Vietnamese legal domain.
- Abstract(参考訳): 法的情報検索の分野では、効果的な埋め込みベースのモデルは正確な質問応答システムに不可欠である。
しかし、大規模な注釈付きデータセットの不足は、特にベトナムの法的文書にとって大きな課題となる。
この問題に対処するために,ベトナムの法律文に対する高品質で多様な合成クエリを生成するために,大規模言語モデルを活用する新しい手法を提案する。
この合成データは、特にバイエンコーダとコルバート(ColBERT)の事前トレーニング検索モデルに使用される。
本実験は,ベトナムの法域における大規模ラベル付きデータセットの欠如による限界を克服するために,これらの改良が検索精度を向上し,合成データの有効性と事前学習技術の有効性を検証した。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文 参考訳(メタデータ) (2024-09-05T02:34:05Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Multi-dimensional data refining strategy for effective fine-tuning LLMs [2.67766280323297]
本稿では,ベトナム語の微調整モデルに適したクロールおよび精錬時に学んだ教訓について述べる。
本稿では、既存のデータセットを英語で活用し、生成AIツールの助けを借りて、カスタマイズされたデータクローリングスクリプトを開発する多次元戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:50:43Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment [2.56085064991751]
本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。
我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
論文 参考訳(メタデータ) (2023-06-08T00:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。