論文の概要: HLDC: Hindi Legal Documents Corpus
- arxiv url: http://arxiv.org/abs/2204.00806v1
- Date: Sat, 2 Apr 2022 08:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 12:36:57.927725
- Title: HLDC: Hindi Legal Documents Corpus
- Title(参考訳): hldc:ヒンディーの法律文書コーパス
- Authors: Arnav Kapoor and Mudit Dhawan and Anmol Goel and T.H. Arjun and
Akshala Bhatnagar and Vibhu Agrawal and Amul Agrawal and Arnab Bhattacharya
and Ponnurangam Kumaraguru and Ashutosh Modi
- Abstract要約: Hindi Legal Documents Corpus (HLDC) は、ヒンディー語で900万以上の法的文書のコーパスである。
ドキュメントは、下流アプリケーションの開発を可能にするために、クリーンで構造化されている。
コーパスのユースケースとして,保釈予測の課題を紹介する。
- 参考スコア(独自算出の注目度): 12.249402492320398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many populous countries including India are burdened with a considerable
backlog of legal cases. Development of automated systems that could process
legal documents and augment legal practitioners can mitigate this. However,
there is a dearth of high-quality corpora that is needed to develop such
data-driven systems. The problem gets even more pronounced in the case of low
resource languages such as Hindi. In this resource paper, we introduce the
Hindi Legal Documents Corpus (HLDC), a corpus of more than 900K legal documents
in Hindi. Documents are cleaned and structured to enable the development of
downstream applications. Further, as a use-case for the corpus, we introduce
the task of bail prediction. We experiment with a battery of models and propose
a Multi-Task Learning (MTL) based model for the same. MTL models use
summarization as an auxiliary task along with bail prediction as the main task.
Experiments with different models are indicative of the need for further
research in this area. We release the corpus and model implementation code with
this paper: https://github.com/Exploration-Lab/HLDC
- Abstract(参考訳): インドを含む多くの人口国は、訴訟のかなりの棚上げに苦しめられている。
法的文書を処理し、法律実務者を増やす自動化システムの開発は、これを緩和することができる。
しかし、このようなデータ駆動システムを開発するために必要な高品質なコーパスが多数存在する。
この問題は、ヒンディー語のような低リソース言語の場合、さらに顕著になる。
本稿では,ヒンディー語の法的文書900万以上のコーパスであるヒンディー法文書コーパス(hldc)を紹介する。
ドキュメントはクリーンで構造化されており、下流アプリケーションの開発を可能にする。
さらに,コーパスのユースケースとして,保釈予測の課題を紹介する。
本稿では,モデルのバッテリを実験し,Multi-Task Learning(MTL)に基づくモデルを提案する。
MTLモデルは、補助タスクとして要約を使用し、保釈予測を主タスクとする。
異なるモデルを用いた実験は、この分野におけるさらなる研究の必要性を示している。
本論文でコーパスとモデル実装のコードを公開します。
関連論文リスト
- Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Convolutional Neural Networks can achieve binary bail judgement
classification [0.5013868868152144]
我々は,ヒンディー語法文書のコーパス上に,畳み込みニューラルネットワーク(CNN)アーキテクチャをデプロイする。
我々はCNNモデルの助けを借りて保釈予測を行い、全体的な精度は93%である。
論文 参考訳(メタデータ) (2024-01-25T12:31:41Z) - SLJP: Semantic Extraction based Legal Judgment Prediction [0.0]
LJP(Lawal Judgment Prediction)は、像、刑期、刑期などの法的要素を推奨する司法支援システムである。
既存のインドのモデルのほとんどは、決定に影響を及ぼす事実記述(FD)に埋め込まれた意味論に十分に集中していなかった。
提案した意味抽出に基づく LJP (SLJP) モデルは, 複雑な非構造化の判例文書理解のための事前学習型変換器の利点を提供する。
論文 参考訳(メタデータ) (2023-12-13T08:50:02Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models
and Evaluation Benchmarks [0.7874708385247353]
私たちは、コードミキシングにおける事前の作業が欠けている低リソースのインドの言語であるMarathiにフォーカスしています。
L3Cube-MeCorpusは,Mr-Enコーパスと1000万のソーシャルメディア文による事前学習用コーパスである。
また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。
論文 参考訳(メタデータ) (2023-06-24T18:17:38Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal
Statute Identification from Indian Legal Documents [10.059041122060686]
法的法規識別 (LSI) は、法規の特定の記述や訴訟の証拠に関連する法規を特定することを目的としている。
既存の方法は、そのようなタスクを導くために、Factsと法的な記事のテキストコンテンツのみを利用する。
我々は、LSIタスクのためのテキストと法的な引用ネットワークの両方を利用するための第一歩を踏み出す。
論文 参考訳(メタデータ) (2021-12-29T18:39:35Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。