論文の概要: \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning
- arxiv url: http://arxiv.org/abs/2104.10263v1
- Date: Tue, 20 Apr 2021 22:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 01:13:10.944140
- Title: \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning
- Title(参考訳): \textit{statecensuslaws.org}: 法的談話学習を利用・注釈するwebアプリケーション
- Authors: Alexander Spangher and Jonathan May
- Abstract要約: 法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
- 参考スコア(独自算出の注目度): 89.77347919191774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we create a web application to highlight the output of NLP
models trained to parse and label discourse segments in law text. Our system is
built primarily with journalists and legal interpreters in mind, and we focus
on state-level law that uses U.S. Census population numbers to allocate
resources and organize government.
Our system exposes a corpus we collect of 6,000 state-level laws that pertain
to the U.S. census, using 25 scrapers we built to crawl state law websites,
which we release. We also build a novel, flexible annotation framework that can
handle span-tagging and relation tagging on an arbitrary input text document
and be embedded simply into any webpage. This framework allows journalists and
researchers to add to our annotation database by correcting and tagging new
data.
- Abstract(参考訳): 本研究では,法文中の言論セグメントを解析・ラベル付けするために訓練されたNLPモデルの出力をハイライトするWebアプリケーションを作成する。
当社の制度は主にジャーナリストや法律通訳を念頭に構築されており、米国国勢調査人口数を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てている。
当社のシステムは、米国国勢調査に関連する6000の州レベルの法律を収集したコーパスを公開し、州法ウェブサイトをクロールするために構築した25のスクレーパーを使って公開します。
また、任意の入力テキスト文書にスパンタグや関係タグを付け、任意のWebページに埋め込むことができる新しいフレキシブルなアノテーションフレームワークを構築します。
このフレームワークにより、ジャーナリストや研究者は、新しいデータを修正してタグ付けすることで、アノテーションデータベースに追加することができます。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Text-guided Legal Knowledge Graph Reasoning [11.089663225933412]
本稿では,関連する法律規定を予測することを目的とした,新しい法律提供予測(lpp)の適用を提案する。
広東省庁のWebサイトから現実の法的規定データを収集し、LegalLPPという法的データセットを構築します。
論文 参考訳(メタデータ) (2021-04-06T04:42:56Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。