論文の概要: An Evaluation Dataset for Legal Word Embedding: A Case Study On Chinese
Codex
- arxiv url: http://arxiv.org/abs/2203.15173v1
- Date: Tue, 29 Mar 2022 01:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 08:16:37.445797
- Title: An Evaluation Dataset for Legal Word Embedding: A Case Study On Chinese
Codex
- Title(参考訳): 法的単語埋め込みのための評価データセット:中国語コーデックスを事例として
- Authors: Chun-Hsien Lin and Pu-Jen Cheng
- Abstract要約: 単語埋め込みは、多くの自然言語処理タスクで広く使われている現代の分散語表現である。
本稿では,5種類の法的関係を利用して,2,388の中国語コーパスから1,134の法的アナロジカル推論質問セット(LARQS)を確立することを提案する。
- 参考スコア(独自算出の注目度): 3.1854529627213273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embedding is a modern distributed word representations approach widely
used in many natural language processing tasks. Converting the vocabulary in a
legal document into a word embedding model facilitates subjecting legal
documents to machine learning, deep learning, and other algorithms and
subsequently performing the downstream tasks of natural language processing
vis-\`a-vis, for instance, document classification, contract review, and
machine translation. The most common and practical approach of accuracy
evaluation with the word embedding model uses a benchmark set with linguistic
rules or the relationship between words to perform analogy reasoning via
algebraic calculation. This paper proposes establishing a 1,134 Legal
Analogical Reasoning Questions Set (LARQS) from the 2,388 Chinese Codex corpus
using five kinds of legal relations, which are then used to evaluate the
accuracy of the Chinese word embedding model. Moreover, we discovered that
legal relations might be ubiquitous in the word embedding model.
- Abstract(参考訳): 単語埋め込みは、多くの自然言語処理タスクで広く使われている現代の分散語表現である。
法的文書の語彙を単語埋め込みモデルに変換することで、機械学習、ディープラーニング、その他のアルゴリズムに法的文書を従属させ、その後、自然言語処理の下流タスク、例えば文書分類、契約レビュー、機械翻訳を実行することができる。
単語埋め込みモデルによる精度評価の最も一般的かつ実践的なアプローチは、言語規則または単語間の関係を持つベンチマークセットを使用して、代数計算による類似推論を行う。
本稿では, 2,388中国語コーパスから, 5種類の法的関係を用いて1,134の法的アナロジカル推論質問セット(LARQS)を作成し, 中国語の単語埋め込みモデルの精度を評価する。
さらに,単語埋め込みモデルでは,法的関係がユビキタスであることを発見した。
関連論文リスト
- A Comprehensive Analysis of Static Word Embeddings for Turkish [0.058520770038704165]
基本的には、非文脈的(静的)モデルと文脈的モデルである2種類の単語埋め込みモデルが存在する。
トルコ語における内在的・外在的評価設定における文脈的・非文脈的モデルの性能の比較と評価を行った。
分析の結果は、異なるタイプのNLPタスクにおける異なる埋め込みモデルの適合性に関する洞察を与える。
論文 参考訳(メタデータ) (2024-05-13T14:23:37Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Enhanced word embeddings using multi-semantic representation through
lexical chains [1.8199326045904998]
フレキシブル・レキシカル・チェーンIIと固定レキシカル・チェーンIIという2つの新しいアルゴリズムを提案する。
これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの以前の知識、および単一のシステムを形成するビルディングブロックとしての単語埋め込みにおける分布仮説の堅牢性を組み合わせている。
その結果、語彙チェーンと単語埋め込み表現の統合は、より複雑なシステムに対しても、最先端の結果を維持します。
論文 参考訳(メタデータ) (2021-01-22T09:43:33Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。