論文の概要: HLDC: Hindi Legal Documents Corpus
- arxiv url: http://arxiv.org/abs/2204.00806v1
- Date: Sat, 2 Apr 2022 08:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 12:36:57.927725
- Title: HLDC: Hindi Legal Documents Corpus
- Title(参考訳): hldc:ヒンディーの法律文書コーパス
- Authors: Arnav Kapoor and Mudit Dhawan and Anmol Goel and T.H. Arjun and
Akshala Bhatnagar and Vibhu Agrawal and Amul Agrawal and Arnab Bhattacharya
and Ponnurangam Kumaraguru and Ashutosh Modi
- Abstract要約: Hindi Legal Documents Corpus (HLDC) は、ヒンディー語で900万以上の法的文書のコーパスである。
ドキュメントは、下流アプリケーションの開発を可能にするために、クリーンで構造化されている。
コーパスのユースケースとして,保釈予測の課題を紹介する。
- 参考スコア(独自算出の注目度): 12.249402492320398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many populous countries including India are burdened with a considerable
backlog of legal cases. Development of automated systems that could process
legal documents and augment legal practitioners can mitigate this. However,
there is a dearth of high-quality corpora that is needed to develop such
data-driven systems. The problem gets even more pronounced in the case of low
resource languages such as Hindi. In this resource paper, we introduce the
Hindi Legal Documents Corpus (HLDC), a corpus of more than 900K legal documents
in Hindi. Documents are cleaned and structured to enable the development of
downstream applications. Further, as a use-case for the corpus, we introduce
the task of bail prediction. We experiment with a battery of models and propose
a Multi-Task Learning (MTL) based model for the same. MTL models use
summarization as an auxiliary task along with bail prediction as the main task.
Experiments with different models are indicative of the need for further
research in this area. We release the corpus and model implementation code with
this paper: https://github.com/Exploration-Lab/HLDC
- Abstract(参考訳): インドを含む多くの人口国は、訴訟のかなりの棚上げに苦しめられている。
法的文書を処理し、法律実務者を増やす自動化システムの開発は、これを緩和することができる。
しかし、このようなデータ駆動システムを開発するために必要な高品質なコーパスが多数存在する。
この問題は、ヒンディー語のような低リソース言語の場合、さらに顕著になる。
本稿では,ヒンディー語の法的文書900万以上のコーパスであるヒンディー法文書コーパス(hldc)を紹介する。
ドキュメントはクリーンで構造化されており、下流アプリケーションの開発を可能にする。
さらに,コーパスのユースケースとして,保釈予測の課題を紹介する。
本稿では,モデルのバッテリを実験し,Multi-Task Learning(MTL)に基づくモデルを提案する。
MTLモデルは、補助タスクとして要約を使用し、保釈予測を主タスクとする。
異なるモデルを用いた実験は、この分野におけるさらなる研究の必要性を示している。
本論文でコーパスとモデル実装のコードを公開します。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Leveraging open-source models for legal language modeling and analysis: a case study on the Indian constitution [0.0]
本稿では,Hugging Faceのオープンソースモデルを用いた法言語モデリング(LLM)と解析の新たなアプローチを提案する。
私たちはLangChainとSentence TransformersによるHugging Faceの埋め込みを活用しています。
次に、インド国憲法の知見を抽出し、このモデルの応用を実証する。
論文 参考訳(メタデータ) (2024-04-10T05:35:47Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Convolutional Neural Networks can achieve binary bail judgement
classification [0.5013868868152144]
我々は,ヒンディー語法文書のコーパス上に,畳み込みニューラルネットワーク(CNN)アーキテクチャをデプロイする。
我々はCNNモデルの助けを借りて保釈予測を行い、全体的な精度は93%である。
論文 参考訳(メタデータ) (2024-01-25T12:31:41Z) - SLJP: Semantic Extraction based Legal Judgment Prediction [0.0]
LJP(Lawal Judgment Prediction)は、像、刑期、刑期などの法的要素を推奨する司法支援システムである。
既存のインドのモデルのほとんどは、決定に影響を及ぼす事実記述(FD)に埋め込まれた意味論に十分に集中していなかった。
提案した意味抽出に基づく LJP (SLJP) モデルは, 複雑な非構造化の判例文書理解のための事前学習型変換器の利点を提供する。
論文 参考訳(メタデータ) (2023-12-13T08:50:02Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal
Statute Identification from Indian Legal Documents [10.059041122060686]
法的法規識別 (LSI) は、法規の特定の記述や訴訟の証拠に関連する法規を特定することを目的としている。
既存の方法は、そのようなタスクを導くために、Factsと法的な記事のテキストコンテンツのみを利用する。
我々は、LSIタスクのためのテキストと法的な引用ネットワークの両方を利用するための第一歩を踏み出す。
論文 参考訳(メタデータ) (2021-12-29T18:39:35Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。