論文の概要: Hybrid Topic-Semantic Labeling and Graph Embeddings for Unsupervised Legal Document Clustering
- arxiv url: http://arxiv.org/abs/2509.00990v1
- Date: Sun, 31 Aug 2025 20:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.492227
- Title: Hybrid Topic-Semantic Labeling and Graph Embeddings for Unsupervised Legal Document Clustering
- Title(参考訳): 教師なし法的文書クラスタリングのためのハイブリッドトピックセマンティックラベリングとグラフ埋め込み
- Authors: Deepak Bastola, Woohyeok Choi,
- Abstract要約: 本稿では,教師なしトピックとグラフ埋め込みを教師付きモデルと組み合わせることで,法的テキストを分類するためのハイブリッドアプローチを提案する。
我々はTop2Vecを使ってセマンティックドキュメントの埋め込みを学習し、潜在トピックを自動的に発見し、Node2Vecは法的文書の2部グラフを通して構造的関係をキャプチャします。
法的な文書データセット上での計算により、Top2Vec+Node2Vecの組み合わせは、テキストのみまたはグラフのみの埋め込みよりもクラスタリング品質を向上させることを示した。
- 参考スコア(独自算出の注目度): 1.6267479602370543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal documents pose unique challenges for text classification due to their domain-specific language and often limited labeled data. This paper proposes a hybrid approach for classifying legal texts by combining unsupervised topic and graph embeddings with a supervised model. We employ Top2Vec to learn semantic document embeddings and automatically discover latent topics, and Node2Vec to capture structural relationships via a bipartite graph of legal documents. The embeddings are combined and clustered using KMeans, yielding coherent groupings of documents. Our computations on a legal document dataset demonstrate that the combined Top2Vec+Node2Vec approach improves clustering quality over text-only or graph-only embeddings. We conduct a sensitivity analysis of hyperparameters, such as the number of clusters and the dimensionality of the embeddings, and demonstrate that our method achieves competitive performance against baseline Latent Dirichlet Allocation (LDA) and Non-Negative Matrix Factorization (NMF) models. Key findings indicate that while the pipeline presents an innovative approach to unsupervised legal document analysis by combining semantic topic modeling with graph embedding techniques, its efficacy is contingent upon the quality of initial topic generation and the representational power of the chosen embedding models for specialized legal language. Strategic recommendations include the exploration of domain-specific embeddings, more comprehensive hyperparameter tuning for Node2Vec, dynamic determination of cluster numbers, and robust human-in-the-loop validation processes to enhance legal relevance and trustworthiness. The pipeline demonstrates potential for exploratory legal data analysis and as a precursor to supervised learning tasks but requires further refinement and domain-specific adaptation for practical legal applications.
- Abstract(参考訳): 法律文書は、ドメイン固有の言語としばしばラベル付きデータによって、テキスト分類に固有の課題を提起する。
本稿では,教師なしトピックとグラフ埋め込みを教師付きモデルと組み合わせることで,法的テキストを分類するためのハイブリッドアプローチを提案する。
我々はTop2Vecを使ってセマンティックドキュメントの埋め込みを学習し、潜在トピックを自動的に発見し、Node2Vecは法的文書の2部グラフを通して構造的関係をキャプチャします。
埋め込みはKMeansを使って組み合わせてクラスタ化され、ドキュメントの一貫性のあるグループ化が生成される。
法的な文書データセット上での計算により、Top2Vec+Node2Vecの組み合わせは、テキストのみまたはグラフのみの埋め込みよりもクラスタリング品質を向上させることを示した。
我々は,クラスタ数や埋め込み次元などのハイパーパラメータの感度解析を行い,ベースライン遅延ディリクレ割当(LDA)と非負行列分解(NMF)モデルとの競合性能を実証する。
キーとなる知見は、パイプラインが意味論的トピックモデリングとグラフ埋め込み技術を組み合わせることによって、教師なしの法的文書分析に革新的なアプローチを示す一方で、その有効性は、特定の法的言語に対する選択された埋め込みモデルの品質と表現力に依存していることを示している。
戦略的レコメンデーションには、ドメイン固有の埋め込みの探索、Node2Vecのより包括的なハイパーパラメータチューニング、クラスタ番号の動的決定、法的妥当性と信頼性を高めるための堅牢なヒューマン・イン・ザ・ループ検証プロセスなどがある。
このパイプラインは、探索的な法的なデータ分析の可能性を実証し、教師付き学習タスクの先駆けとなるが、実用的な法的な応用にはさらなる洗練とドメイン固有の適応が必要である。
関連論文リスト
- ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - The Deep Latent Position Topic Model for Clustering and Representation
of Networks with Textual Edges [2.6334900941196087]
Deep-LPTMは、変分グラフ自動エンコーダアプローチに基づくモデルベースのクラスタリング戦略である。
Enron社のメールは分析され、その結果の視覚化が提示される。
論文 参考訳(メタデータ) (2023-04-14T07:01:57Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Sequential Cross-Document Coreference Resolution [14.099694053823765]
クロスドキュメントのコリファレンス解決は、マルチドキュメント分析タスクへの関心が高まる上で重要である。
コアファレンス分解能の効率的なシーケンシャル予測パラダイムを文書間設定に拡張する新しいモデルを提案する。
私たちのモデルは、参照をクラスタ表現にインクリメンタルに合成し、参照とすでに構築されたクラスタ間のリンクを予測する。
論文 参考訳(メタデータ) (2021-04-17T00:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。