Fugu-MT 論文翻訳(概要): Joint Span Segmentation and Rhetorical Role Labeling with Data Augmentation for Legal Documents

論文の概要: Joint Span Segmentation and Rhetorical Role Labeling with Data Augmentation for Legal Documents

arxiv url: http://arxiv.org/abs/2302.06448v1
Date: Mon, 13 Feb 2023 15:28:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 15:02:48.030445
Title: Joint Span Segmentation and Rhetorical Role Labeling with Data Augmentation for Legal Documents
Title（参考訳）: 法的文書に対するデータ拡張による関節スパン分割とレトリック・ロールラベリング
Authors: T.Y.S.S. Santosh, Philipp Bock, Matthias Grabmair
Abstract要約: 法的判断の修辞的役割ラベル付けは、検索や隣接タスクにおいて重要な役割を果たす。我々は、同じ修辞的役割ラベルを共有する複数の連続した文のスパンを識別する作業として、スパンレベルでのタスクを再構築する。我々は半マルコフ条件ランダム場(CRF)を用いてスパンセグメンテーションとスパンラベル割り当てを共同で学習する。
参考スコア（独自算出の注目度）: 1.4072904523937537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Segmentation and Rhetorical Role Labeling of legal judgements play a crucial role in retrieval and adjacent tasks, including case summarization, semantic search, argument mining etc. Previous approaches have formulated this task either as independent classification or sequence labeling of sentences. In this work, we reformulate the task at span level as identifying spans of multiple consecutive sentences that share the same rhetorical role label to be assigned via classification. We employ semi-Markov Conditional Random Fields (CRF) to jointly learn span segmentation and span label assignment. We further explore three data augmentation strategies to mitigate the data scarcity in the specialized domain of law where individual documents tend to be very long and annotation cost is high. Our experiments demonstrate improvement of span-level prediction metrics with a semi-Markov CRF model over a CRF baseline. This benefit is contingent on the presence of multi sentence spans in the document.
Abstract（参考訳）: 判例要約,セマンティック検索,議論マイニングなど,法的判断のセグメンテーションと修辞的役割ラベル付けは,検索や隣接タスクにおいて重要な役割を担っている。以前のアプローチでは、このタスクは文の独立分類またはシーケンスラベリングとして定式化されてきた。本研究では,同一の修辞的役割ラベルを持つ複数の連続文のスパンを分類によって識別し,スパンレベルでのタスクを再構成する。我々は半マルコフ条件ランダム場(CRF)を用いてスパンセグメンテーションとスパンラベル割り当てを共同で学習する。さらに、個々の文書が非常に長く、注釈コストが高い専門分野におけるデータの不足を軽減する3つのデータ拡張戦略について検討する。実験では, CRFベースライン上での半マルコフCRFモデルによるスパンレベル予測の精度向上を実証した。この利点は、文書に複数文のスパンが存在することによる。

関連論文リスト

Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech [61.00008468914252]
本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。ベンチマークは、伝統的に段落のセグメンテーションが後処理の一部ではない未調査の音声領域に焦点を当てている。第二に、制約付き復号法を提案し、大言語モデルが原文を保存しながら段落を挿入できるようにする。第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
論文参考訳（メタデータ） (2025-12-30T23:29:51Z)
LegalSeg: Unlocking the Structure of Indian Legal Judgments Through Rhetorical Role Classification [6.549338652948716]
7000以上の文書と140万の文で構成され、7つの修辞的な役割をラベル付けした、このタスクのための最大の注釈付きデータセットであるLegalSegを紹介します。以上の結果から,より広義の文脈,構造的関係,逐次的な文情報を含むモデルが,文レベルの特徴にのみ依存するモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-02-09T10:07:05Z)
Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文参考訳（メタデータ） (2024-10-17T11:43:16Z)
The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文参考訳（メタデータ） (2024-06-02T19:35:19Z)
Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。 Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文参考訳（メタデータ） (2023-05-22T14:16:23Z)
Rhetorical Role Labeling of Legal Documents using Transformers and Graph Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文参考訳（メタデータ） (2023-05-06T17:04:51Z)
Cross-domain Speech Recognition with Unsupervised Character-level Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。 Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文参考訳（メタデータ） (2021-04-15T14:36:54Z)
Few-shot Intent Classification and Slot Filling with Retrieved Examples [30.45269507626138]
そこで我々は,新しいバッチソフトマックスの手法を用いて,同じラベルを持つスパンの類似した文脈表現を学習するスパンレベル検索手法を提案する。提案手法は,CLINCおよびSNIPSベンチマークにおいて,様々な数ショット設定で過去のシステムより優れていた。
論文参考訳（メタデータ） (2021-04-12T18:50:34Z)
Unsupervised Extractive Summarization using Pointwise Mutual Information [5.544401446569243]
文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。
論文参考訳（メタデータ） (2021-02-11T21:05:50Z)
R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。最初にBERTを使用して、グローバルな視点から入力文をエンコードします。次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文参考訳（メタデータ） (2020-12-16T13:11:30Z)
Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。 2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文参考訳（メタデータ） (2020-10-11T14:42:18Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)
Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2020-06-10T07:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。