論文の概要: A Cross-Lingual Statutory Article Retrieval Dataset for Taiwan Legal Studies
- arxiv url: http://arxiv.org/abs/2410.11450v1
- Date: Tue, 15 Oct 2024 09:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:42.147608
- Title: A Cross-Lingual Statutory Article Retrieval Dataset for Taiwan Legal Studies
- Title(参考訳): 台湾法学における言語横断法典検索データセット
- Authors: Yen-Hsiang Wang, Feng-Dian Su, Tzu-Yu Yeh, Yao-Chung Fan,
- Abstract要約: 本稿では,多言語設定における法的情報検索を強化するために,言語間法定項目検索(SAR)データセットを提案する。
我々のデータセットは、台湾の民事・刑事・行政法を網羅し、対応する中国語版と関連する法令とを合わせた、英語による音声言語形式の法的問合せを特徴としている。
- 参考スコア(独自算出の注目度): 4.511440076037968
- License:
- Abstract: This paper introduces a cross-lingual statutory article retrieval (SAR) dataset designed to enhance legal information retrieval in multilingual settings. Our dataset features spoken-language-style legal inquiries in English, paired with corresponding Chinese versions and relevant statutes, covering all Taiwanese civil, criminal, and administrative laws. This dataset aims to improve access to legal information for non-native speakers, particularly for foreign nationals in Taiwan. We propose several LLM-based methods as baselines for evaluating retrieval effectiveness, focusing on mitigating translation errors and improving cross-lingual retrieval performance. Our work provides a valuable resource for developing inclusive legal information retrieval systems.
- Abstract(参考訳): 本稿では,多言語設定における法的情報検索を強化するために,言語間法定項目検索(SAR)データセットを提案する。
我々のデータセットは、台湾の民事・刑事・行政法を網羅し、対応する中国語版と関連する法令とを合わせた、英語による音声言語形式の法的問合せを特徴としている。
このデータセットは、非ネイティブ話者、特に台湾の外国人に対する法的情報へのアクセスを改善することを目的としている。
本稿では,翻訳誤りの軽減と言語間検索性能の向上に焦点をあて,検索効率を評価するためのベースラインとして,LLMに基づくいくつかの手法を提案する。
我々の研究は、包括的法的情報検索システムの開発に貴重な資源を提供する。
関連論文リスト
- Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer [23.978072734886272]
この研究は、既存の英語資源を効果的に活用して、非英語におけるDocRE研究を促進することを目的としている。
英語のデータセットを日本語に転送することでデータセットを構築する。
翻訳されたデータセットが日本語文書の人間のアノテーションを補助できるかどうかについて検討する。
論文 参考訳(メタデータ) (2024-04-25T10:59:02Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - GPTs and Language Barrier: A Cross-Lingual Legal QA Examination [5.253214457141011]
我々は,COLIEE Task 4データセットを用いた言語間法的質問応答システム(QA)における生成事前学習トランスフォーマー(GPT)の適用について検討する。
COLIEEタスク4において、文脈として機能する声明と関連する法的記事のセットが与えられた場合、その声明が法的に有効であるかどうかを決定することが目的である。
英語と日本語のプロンプトとデータの4つの組み合わせをベンチマークすることにより、多言語法的QAシナリオにおけるGPTのパフォーマンスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-03-26T20:47:32Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form
Summarization in the Legal Domain [2.4815579733050157]
欧州連合法プラットフォーム(EUR-Lex)の法的行為を手作業でキュレートした文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。
文書とその要約は、24の公用語のうちいくつかの言語間の段落整列データとして存在している。
言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。
論文 参考訳(メタデータ) (2022-10-24T17:58:59Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。