論文の概要: Improving Access to Justice for the Indian Population: A Benchmark for
Evaluating Translation of Legal Text to Indian Languages
- arxiv url: http://arxiv.org/abs/2310.09765v1
- Date: Sun, 15 Oct 2023 07:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:07:33.819703
- Title: Improving Access to Justice for the Indian Population: A Benchmark for
Evaluating Translation of Legal Text to Indian Languages
- Title(参考訳): インド人人口の司法アクセスの改善:インド語への法的テキストの翻訳を評価するためのベンチマーク
- Authors: Sayan Mahapatra, Debtanu Datta, Shubham Soni, Adrijit Goswami,
Saptarshi Ghosh
- Abstract要約: インド司法裁判所の法的文書の多くは、歴史的理由から複雑な英語で書かれている。
インドの人口の約10%が英語を読むのに慣れている。
我々は、英語と9つのインド語で整列したテキスト単位を含む、最初の高品質な法定並列コーパスを構築した。
- 参考スコア(独自算出の注目度): 2.8300485344102477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most legal text in the Indian judiciary is written in complex English due to
historical reasons. However, only about 10% of the Indian population is
comfortable in reading English. Hence legal text needs to be made available in
various Indian languages, possibly by translating the available legal text from
English. Though there has been a lot of research on translation to and between
Indian languages, to our knowledge, there has not been much prior work on such
translation in the legal domain. In this work, we construct the first
high-quality legal parallel corpus containing aligned text units in English and
nine Indian languages, that includes several low-resource languages. We also
benchmark the performance of a wide variety of Machine Translation (MT) systems
over this corpus, including commercial MT systems, open-source MT systems and
Large Language Models. Through a comprehensive survey by Law practitioners, we
check how satisfied they are with the translations by some of these MT systems,
and how well automatic MT evaluation metrics agree with the opinions of Law
practitioners.
- Abstract(参考訳): インド司法裁判所の法的文書の多くは、歴史的理由から複雑な英語で書かれている。
しかし、インディアン人口の約10%が英語を読むのが快適である。
したがって、英語から利用可能な法的テキストを翻訳することで、様々なインド語で法的テキストを利用可能にする必要がある。
インド語間の翻訳については、我々の知る限り、多くの研究が行われてきたが、法的な領域における翻訳に関する先行研究はあまり行われていない。
そこで本研究では,複数の低リソース言語を含む英語と9つのインド語文単位を含む,最初の高品質な並列並列コーパスを構築した。
我々はまた、商用mtシステム、オープンソースmtシステム、大規模言語モデルを含む、このコーパス上での多種多様な機械翻訳(mt)システムの性能をベンチマークする。
法実務者による包括的調査を通じて,これらのmtシステムの翻訳にどの程度満足しているか,mt評価指標が法実務者の意見にどの程度合致しているかを確認した。
関連論文リスト
- IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoning [16.12863746776168]
世界中の法制度は、事例や文書の指数的な増加と共に浸水している。
法律文書を自動的に処理し理解するためのNLPおよびML技術を開発する必要がある。
本稿では, IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoningを提案する。
論文 参考訳(メタデータ) (2024-07-07T14:55:04Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of
Indian Legal Case Judgments [6.522489660886997]
公正な司法アクセスを確保するために、インドの言語で法律文書を要約することが不可欠である。
本研究は,ヒンディー語における英語法典の言語間要約に向けた先駆的な取り組みを示す。
我々は、英語とヒンディー語の両方の要約とともに、英語の著名なインド人裁判所から3,122件の判例判決からなる、最初の高品質な法定コーパスを構築した。
論文 参考訳(メタデータ) (2023-10-28T05:51:57Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law [7.366081387295463]
私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
論文 参考訳(メタデータ) (2022-09-13T15:01:11Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。