論文の概要: A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court
- arxiv url: http://arxiv.org/abs/2505.08439v1
- Date: Tue, 13 May 2025 11:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.529904
- Title: A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court
- Title(参考訳): イタリア最高裁判所判決に基づく話題モデリング用データセット構築のための文書処理パイプライン
- Authors: Matteo Marulli, Glauco Panattoni, Marco Bertini,
- Abstract要約: トピックモデリングに最適化された匿名化データセットを生成する文書処理パイプラインを開発した。
パイプラインは文書レイアウト解析(YOLOv8x)、光学文字認識、テキスト匿名化を統合している。
OCRのみの手法と比較して,多様性スコア0.6198,コヒーレンススコア0.6638でトピックモデリングを改善した。
- 参考スコア(独自算出の注目度): 5.612141846711729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic modeling in Italian legal research is hindered by the lack of public datasets, limiting the analysis of legal themes in Supreme Court judgments. To address this, we developed a document processing pipeline that produces an anonymized dataset optimized for topic modeling. The pipeline integrates document layout analysis (YOLOv8x), optical character recognition, and text anonymization. The DLA module achieved a mAP@50 of 0.964 and a mAP@50-95 of 0.800. The OCR detector reached a mAP@50-95 of 0.9022, and the text recognizer (TrOCR) obtained a character error rate of 0.0047 and a word error rate of 0.0248. Compared to OCR-only methods, our dataset improved topic modeling with a diversity score of 0.6198 and a coherence score of 0.6638. We applied BERTopic to extract topics and used large language models to generate labels and summaries. Outputs were evaluated against domain expert interpretations. Claude Sonnet 3.7 achieved a BERTScore F1 of 0.8119 for labeling and 0.9130 for summarization.
- Abstract(参考訳): イタリアの法律研究におけるトピックモデリングは、公開データセットの欠如によって妨げられ、最高裁判所判決における法的テーマの分析が制限される。
そこで我々は,トピックモデリングに最適化された匿名化されたデータセットを生成する文書処理パイプラインを開発した。
パイプラインは文書レイアウト解析(YOLOv8x)、光学文字認識、テキスト匿名化を統合している。
DLAモジュールは0.964のmAP@50と0.800のmAP@50-95を達成した。
OCR検出器は0.9022のmAP@50-95に達し、文字認識器(TrOCR)は0.0047の文字誤り率と0.0248の単語誤り率を得た。
OCRのみの手法と比較して,多様性スコア0.6198,コヒーレンススコア0.6638でトピックモデリングを改善した。
BERTopicを用いてトピックを抽出し,ラベルや要約を生成するために大規模言語モデルを用いた。
成果はドメインエキスパートの解釈に対して評価された。
Claude Sonnet 3.7 は BERTScore F1 を 0.8119 でラベル付けし、0.9130 で要約した。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for
Consistent Data-to-Text Generation [0.0]
ASPIROは、構造化されたデータを0から数ショット設定で短いテンプレート文に変換するアプローチである。
従来の手法とは異なり、我々のアプローチは大規模言語モデルにエンティティに依存しないテンプレートを直接生成するよう促す。
論文 参考訳(メタデータ) (2023-10-27T03:39:51Z) - Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文 参考訳(メタデータ) (2023-10-23T11:33:24Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。