論文の概要: Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers
- arxiv url: http://arxiv.org/abs/2304.14447v1
- Date: Thu, 27 Apr 2023 18:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 16:14:53.064400
- Title: Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers
- Title(参考訳): ディープニューラルネットワークを用いたベトナムの法的問題の解析
- Authors: Nguyen Anh Tu, Hoang Thi Thu Uyen, Tu Minh Phuong, Ngo Xuan Bach
- Abstract要約: 我々は深層ニューラルネットワークを用いてベトナムの法的問題から重要な情報を抽出することを提案する。
自然言語で法的疑問が与えられた場合、その疑問に答えるために必要な情報を含む全てのセグメントを抽出することが目的である。
- 参考スコア(独自算出の注目度): 3.116035935327534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose using deep neural networks to extract important
information from Vietnamese legal questions, a fundamental task towards
building a question answering system in the legal domain. Given a legal
question in natural language, the goal is to extract all the segments that
contain the needed information to answer the question. We introduce a deep
model that solves the task in three stages. First, our model leverages recent
advanced autoencoding language models to produce contextual word embeddings,
which are then combined with character-level and POS-tag information to form
word representations. Next, bidirectional long short-term memory networks are
employed to capture the relations among words and generate sentence-level
representations. At the third stage, borrowing ideas from graph-based
dependency parsing methods which provide a global view on the input sentence,
we use biaffine classifiers to estimate the probability of each pair of
start-end words to be an important segment. Experimental results on a public
Vietnamese legal dataset show that our model outperforms the previous work by a
large margin, achieving 94.79% in the F1 score. The results also prove the
effectiveness of using contextual features extracted from pre-trained language
models combined with other types of features such as character-level and
POS-tag features when training on a limited dataset.
- Abstract(参考訳): 本稿では,ベトナムの法的質問から重要な情報を深層ニューラルネットワークを用いて抽出する手法を提案する。
自然言語における法的問題を考えると、質問に答えるために必要な情報を含むすべてのセグメントを抽出することが目的です。
我々は,この課題を3段階に分けて解決する深層モデルを提案する。
まず,近年の高度自動符号化言語モデルを用いて文脈的単語埋め込みを生成し,文字レベルやPOSタグ情報と組み合わせて単語表現を生成する。
次に、単語間の関係を捕捉し、文レベルの表現を生成するために、双方向の長期記憶ネットワークを用いる。
第3段階では、入力文のグローバルなビューを提供するグラフベースの依存性解析手法からアイデアを借り、バイファイン分類器を用いて、各単語のペアが重要なセグメントとなる確率を推定する。
ベトナムの公的な法的データセットの実験結果から、我々のモデルはF1スコアの94.79%を達成し、前回よりも大きなマージンを達成していることがわかった。
また,事前学習した言語モデルから抽出した文脈的特徴と,限られたデータセットでトレーニングする場合の文字レベルやPOSタグといった他の特徴とを組み合わせて有効性を示す。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。