論文の概要: Joint Span Segmentation and Rhetorical Role Labeling with Data
Augmentation for Legal Documents
- arxiv url: http://arxiv.org/abs/2302.06448v1
- Date: Mon, 13 Feb 2023 15:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:02:48.030445
- Title: Joint Span Segmentation and Rhetorical Role Labeling with Data
Augmentation for Legal Documents
- Title(参考訳): 法的文書に対するデータ拡張による関節スパン分割とレトリック・ロールラベリング
- Authors: T.Y.S.S. Santosh, Philipp Bock, Matthias Grabmair
- Abstract要約: 法的判断の修辞的役割ラベル付けは、検索や隣接タスクにおいて重要な役割を果たす。
我々は、同じ修辞的役割ラベルを共有する複数の連続した文のスパンを識別する作業として、スパンレベルでのタスクを再構築する。
我々は半マルコフ条件ランダム場(CRF)を用いてスパンセグメンテーションとスパンラベル割り当てを共同で学習する。
- 参考スコア(独自算出の注目度): 1.4072904523937537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segmentation and Rhetorical Role Labeling of legal judgements play a crucial
role in retrieval and adjacent tasks, including case summarization, semantic
search, argument mining etc. Previous approaches have formulated this task
either as independent classification or sequence labeling of sentences. In this
work, we reformulate the task at span level as identifying spans of multiple
consecutive sentences that share the same rhetorical role label to be assigned
via classification. We employ semi-Markov Conditional Random Fields (CRF) to
jointly learn span segmentation and span label assignment. We further explore
three data augmentation strategies to mitigate the data scarcity in the
specialized domain of law where individual documents tend to be very long and
annotation cost is high. Our experiments demonstrate improvement of span-level
prediction metrics with a semi-Markov CRF model over a CRF baseline. This
benefit is contingent on the presence of multi sentence spans in the document.
- Abstract(参考訳): 判例要約,セマンティック検索,議論マイニングなど,法的判断のセグメンテーションと修辞的役割ラベル付けは,検索や隣接タスクにおいて重要な役割を担っている。
以前のアプローチでは、このタスクは文の独立分類またはシーケンスラベリングとして定式化されてきた。
本研究では,同一の修辞的役割ラベルを持つ複数の連続文のスパンを分類によって識別し,スパンレベルでのタスクを再構成する。
我々は半マルコフ条件ランダム場(CRF)を用いてスパンセグメンテーションとスパンラベル割り当てを共同で学習する。
さらに、個々の文書が非常に長く、注釈コストが高い専門分野におけるデータの不足を軽減する3つのデータ拡張戦略について検討する。
実験では, CRFベースライン上での半マルコフCRFモデルによるスパンレベル予測の精度向上を実証した。
この利点は、文書に複数文のスパンが存在することによる。
関連論文リスト
- Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Few-shot Intent Classification and Slot Filling with Retrieved Examples [30.45269507626138]
そこで我々は,新しいバッチソフトマックスの手法を用いて,同じラベルを持つスパンの類似した文脈表現を学習するスパンレベル検索手法を提案する。
提案手法は,CLINCおよびSNIPSベンチマークにおいて,様々な数ショット設定で過去のシステムより優れていた。
論文 参考訳(メタデータ) (2021-04-12T18:50:34Z) - Unsupervised Extractive Summarization using Pointwise Mutual Information [5.544401446569243]
文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。
本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-11T21:05:50Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。