論文の概要: Better Transcription of UK Supreme Court Hearings
- arxiv url: http://arxiv.org/abs/2211.17094v1
- Date: Tue, 29 Nov 2022 17:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:40:47.256420
- Title: Better Transcription of UK Supreme Court Hearings
- Title(参考訳): 英国最高裁判所の聴力向上
- Authors: Hadeel Saadany, Constantin Or\u{a}san, Catherine Breslin
- Abstract要約: 本研究は、英国の司法部門向けに自動転写ツールを構築するための研究と産業の複合プロジェクトについて述べる。
本稿では,法廷聴聞書の翻訳に関わる課題と,これらの課題に対処するために採用した自然言語処理(NLP)技術について説明する。
- 参考スコア(独自算出の注目度): 2.76240219662896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transcription of legal proceedings is very important to enable access to
justice. However, speech transcription is an expensive and slow process. In
this paper we describe part of a combined research and industrial project for
building an automated transcription tool designed specifically for the Justice
sector in the UK. We explain the challenges involved in transcribing court room
hearings and the Natural Language Processing (NLP) techniques we employ to
tackle these challenges. We will show that fine-tuning a generic off-the-shelf
pre-trained Automatic Speech Recognition (ASR) system with an in-domain
language model as well as infusing common phrases extracted with a collocation
detection model can improve not only the Word Error Rate (WER) of the
transcribed hearings but avoid critical errors that are specific of the legal
jargon and terminology commonly used in British courts.
- Abstract(参考訳): 法的手続きの転写は、司法へのアクセスを可能にするために非常に重要である。
しかし、音声の書き起こしは高価で遅いプロセスである。
本稿では,英国の司法部門に特化して設計された自動転写ツールを開発するための研究と産業の複合プロジェクトについて述べる。
本稿では,法廷聴聞書の翻訳に関わる課題と,これらの課題に対処するための自然言語処理(NLP)技術について説明する。
そこで,本研究では,英裁判所で一般的に使用されている法用語や用語に特有の致命的な誤りを回避し,単語誤り率(WER)を向上させるとともに,ドメイン内言語モデルを用いた汎用オフザシェルフ自動音声認識(ASR)システムの微調整を行う。
関連論文リスト
- Hybrid Deep Learning for Legal Text Analysis: Predicting Punishment Durations in Indonesian Court Rulings [0.0]
本研究は,文長の深層学習に基づく予測システムを開発した。
我々のモデルは,CNNとBiLSTMとアテンション機構を組み合わせたもので,R2乗のスコアは0.5893。
論文 参考訳(メタデータ) (2024-10-26T07:07:48Z) - The State of Commercial Automatic French Legal Speech Recognition Systems and their Impact on Court Reporters et al [0.0]
本稿では,裁判所記者の法的手続きの翻訳を支援するための自動音声認識システムの可能性について検討する。
商用およびオープンソースオプションを含む3つのASRモデルを、フランス語の法的発言を認識する能力についてベンチマークする。
この結果は、現在のASRシステムは将来性を示すが、法域の特定のニーズを満たすためにさらなる改良が必要であることを示唆している。
論文 参考訳(メタデータ) (2024-08-21T18:44:28Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK
Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、
我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文 参考訳(メタデータ) (2024-03-04T10:13:30Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension [6.442209435258797]
LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
論文 参考訳(メタデータ) (2022-12-16T00:15:14Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。