論文の概要: \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning
- arxiv url: http://arxiv.org/abs/2104.10263v1
- Date: Tue, 20 Apr 2021 22:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 01:13:10.944140
- Title: \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning
- Title(参考訳): \textit{statecensuslaws.org}: 法的談話学習を利用・注釈するwebアプリケーション
- Authors: Alexander Spangher and Jonathan May
- Abstract要約: 法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
- 参考スコア(独自算出の注目度): 89.77347919191774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we create a web application to highlight the output of NLP
models trained to parse and label discourse segments in law text. Our system is
built primarily with journalists and legal interpreters in mind, and we focus
on state-level law that uses U.S. Census population numbers to allocate
resources and organize government.
Our system exposes a corpus we collect of 6,000 state-level laws that pertain
to the U.S. census, using 25 scrapers we built to crawl state law websites,
which we release. We also build a novel, flexible annotation framework that can
handle span-tagging and relation tagging on an arbitrary input text document
and be embedded simply into any webpage. This framework allows journalists and
researchers to add to our annotation database by correcting and tagging new
data.
- Abstract(参考訳): 本研究では,法文中の言論セグメントを解析・ラベル付けするために訓練されたNLPモデルの出力をハイライトするWebアプリケーションを作成する。
当社の制度は主にジャーナリストや法律通訳を念頭に構築されており、米国国勢調査人口数を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てている。
当社のシステムは、米国国勢調査に関連する6000の州レベルの法律を収集したコーパスを公開し、州法ウェブサイトをクロールするために構築した25のスクレーパーを使って公開します。
また、任意の入力テキスト文書にスパンタグや関係タグを付け、任意のWebページに埋め込むことができる新しいフレキシブルなアノテーションフレームワークを構築します。
このフレームワークにより、ジャーナリストや研究者は、新しいデータを修正してタグ付けすることで、アノテーションデータベースに追加することができます。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Text-guided Legal Knowledge Graph Reasoning [11.089663225933412]
本稿では,関連する法律規定を予測することを目的とした,新しい法律提供予測(lpp)の適用を提案する。
広東省庁のWebサイトから現実の法的規定データを収集し、LegalLPPという法的データセットを構築します。
論文 参考訳(メタデータ) (2021-04-06T04:42:56Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。