論文の概要: Multi-stage Information Retrieval for Vietnamese Legal Texts
- arxiv url: http://arxiv.org/abs/2209.14494v1
- Date: Thu, 29 Sep 2022 01:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:02:05.955832
- Title: Multi-stage Information Retrieval for Vietnamese Legal Texts
- Title(参考訳): ベトナム法典の多段階情報検索
- Authors: Nhat-Minh Pham, Ha-Thanh Nguyen, Trong-Hop Do
- Abstract要約: 本研究では, 文変換器を用いたベトナムの法律文書の検索手法を提案する。
様々な実験を行い、異なる変圧器モデル、ランキングスコア、音節レベル、単語レベルの訓練を比較した。
- 参考スコア(独自算出の注目度): 0.17188280334580194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study deals with the problem of information retrieval (IR) for
Vietnamese legal texts. Despite being well researched in many languages,
information retrieval has still not received much attention from the Vietnamese
research community. This is especially true for the case of legal documents,
which are hard to process. This study proposes a new approach for information
retrieval for Vietnamese legal documents using sentence-transformer. Besides,
various experiments are conducted to make comparisons between different
transformer models, ranking scores, syllable-level, and word-level training.
The experiment results show that the proposed model outperforms models used in
current research on information retrieval for Vietnamese documents.
- Abstract(参考訳): 本研究はベトナムの法律文書における情報検索(IR)の問題を扱う。
多くの言語でよく研究されているにもかかわらず、情報検索はベトナムの研究コミュニティからはあまり注目を集めていない。
これは、処理が難しい法的文書の場合、特に当てはまります。
本研究では,文変換器を用いたベトナムの法律文書の情報検索手法を提案する。
さらに, 異なる変圧器モデル, ランキングスコア, 音節レベル, 単語レベル訓練の比較実験を行った。
実験の結果,提案モデルはベトナム語文書の情報検索研究で用いられているモデルよりも優れていることがわかった。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese [2.9649783577150837]
ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-05-07T02:48:47Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Leveraging Semantic Representations Combined with Contextual Word
Representations for Recognizing Textual Entailment in Vietnamese [0.25782420501870296]
本稿では,SRLタスクによる意味表現と,RTE問題に対するBERT相対モデルのコンテキスト表現を組み合わせた実験を行う。
実験の結果,意味認識型文脈表現モデルは意味表現を含まないモデルよりも約1%高い性能を示した。
論文 参考訳(メタデータ) (2023-01-01T15:13:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - VieSum: How Robust Are Transformer-based Models on Vietnamese
Summarization? [1.1379578593538398]
ベトナムの抽象的な要約のためのトランスフォーマーベースエンコーダデコーダアーキテクチャのロバスト性について検討する。
ベトナムの2つのデータセットにおける手法の性能を検証した。
論文 参考訳(メタデータ) (2021-10-08T17:10:31Z) - Extract, Integrate, Compete: Towards Verification Style Reading
Comprehension [66.2551168928688]
本稿では,ガオカオの中国語テストから,VGaokaoと命名された新しい検証スタイル読解データセットを提案する。
VGaokaoの課題に対処するため,我々は新しい抽出・抽出・計算手法を提案する。
論文 参考訳(メタデータ) (2021-09-11T01:34:59Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。