論文の概要: Precise Legal Sentence Boundary Detection for Retrieval at Scale: NUPunkt and CharBoundary
- arxiv url: http://arxiv.org/abs/2504.04131v1
- Date: Sat, 05 Apr 2025 10:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:47.612852
- Title: Precise Legal Sentence Boundary Detection for Retrieval at Scale: NUPunkt and CharBoundary
- Title(参考訳): 大規模検索のための高精度法文境界検出:NUPunktとCharBundary
- Authors: Michael J Bommarito, Daniel Martin Katz, Jillian Bommarito,
- Abstract要約: 法文の高精度処理に最適化された2つの文境界検出ライブラリであるNUPunktとCharBoundaryを提案する。
これらの図書館は、特別な引用、略語、複雑な文構造を含む法的文書によって引き起こされる重要な課題に対処する。
- 参考スコア(独自算出の注目度): 13.284214798785847
- License:
- Abstract: We present NUPunkt and CharBoundary, two sentence boundary detection libraries optimized for high-precision, high-throughput processing of legal text in large-scale applications such as due diligence, e-discovery, and legal research. These libraries address the critical challenges posed by legal documents containing specialized citations, abbreviations, and complex sentence structures that confound general-purpose sentence boundary detectors. Our experimental evaluation on five diverse legal datasets comprising over 25,000 documents and 197,000 annotated sentence boundaries demonstrates that NUPunkt achieves 91.1% precision while processing 10 million characters per second with modest memory requirements (432 MB). CharBoundary models offer balanced and adjustable precision-recall tradeoffs, with the large model achieving the highest F1 score (0.782) among all tested methods. Notably, NUPunkt provides a 29-32% precision improvement over general-purpose tools while maintaining exceptional throughput, processing multi-million document collections in minutes rather than hours. Both libraries run efficiently on standard CPU hardware without requiring specialized accelerators. NUPunkt is implemented in pure Python with zero external dependencies, while CharBoundary relies only on scikit-learn and optional ONNX runtime integration for optimized performance. Both libraries are available under the MIT license, can be installed via PyPI, and can be interactively tested at https://sentences.aleainstitute.ai/. These libraries address critical precision issues in retrieval-augmented generation systems by preserving coherent legal concepts across sentences, where each percentage improvement in precision yields exponentially greater reductions in context fragmentation, creating cascading benefits throughout retrieval pipelines and significantly enhancing downstream reasoning quality.
- Abstract(参考訳): NUPunkt と CharBoundary の2つの文境界検出ライブラリについて述べる。
これらの図書館は、専門的な引用、略語、および汎用的な文境界検出器を裏付ける複雑な文構造を含む法的文書によって引き起こされる重要な課題に対処する。
25,000以上の文書と197,000の注釈付き文境界からなる5つの多種多様な法的データセットを実験的に評価したところ、NUPunktは91.1%の精度で、1秒あたり1000万文字を適度なメモリ要求(432MB)で処理していることがわかった。
シャルバウンダリーモデルはバランスよく調整可能な精密リコールのトレードオフを提供し、大きなモデルは全ての試験方法の中で最高F1スコア(0.782)を達成している。
特に、NUPunktは、例外的なスループットを維持しながら、数時間ではなく数分で数百万のドキュメントコレクションを処理しながら、汎用ツールよりも29~32%の精度で改善している。
両方のライブラリは、特別なアクセラレータを必要とすることなく、標準的なCPUハードウェア上で効率的に動作する。
NUPunktは純粋なPythonで実装されており、外部依存はゼロである。
どちらのライブラリもMITライセンスで利用可能で、PyPI経由でインストールでき、https://sentences.aleainstitute.ai/.comでインタラクティブにテストできる。
これらのライブラリは、テキスト間のコヒーレントな法的概念を保ち、各パーセンテージの改善によって文脈の断片化が指数関数的に増大し、検索パイプライン全体を通してカスケードの利点が生まれ、下流の推論品質が著しく向上する、検索強化された生成システムにおける重要な精度問題に対処する。
関連論文リスト
- Detecting Multi-Parameter Constraint Inconsistencies in Python Data Science Libraries [21.662640566736098]
コードとドキュメンテーションの不整合を検出するためにMPDetectorを提案する。
MPDetectorは、シンボリック実行を通じて実行パスを探索することで、これらの制約をコードレベルで識別する。
本研究では,LLM出力の予測不可能性を再現するファジィ制約論理を提案する。
論文 参考訳(メタデータ) (2024-11-18T09:30:14Z) - Efficiency-Effectiveness Tradeoff of Probabilistic Structured Queries for Cross-Language Information Retrieval [30.070780800451953]
本稿では,PSQの有効性と効率のトレードオフが複数基準プルーニングの利点をもたらすことを示すため,最新のCLIRテストコレクションについて実験を行った。
当社のPython PSQ実装はGitHubから入手可能です。
論文 参考訳(メタデータ) (2024-04-29T15:33:56Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate
NLP Pipelines [0.0]
本稿では,ハンガリーにおける産業レベルのテキスト処理モデルについて述べる。
モデルはspurCyフレームワークで実装され、HuSpaCyツールキットを拡張した。
すべての実験は再現可能であり、パイプラインはパーミッシブライセンスの下で自由に利用できる。
論文 参考訳(メタデータ) (2023-08-24T08:19:51Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Binary Embedding-based Retrieval at Tencent [30.44247353560061]
大規模埋め込み型検索 (EBR) は, 検索関連産業アプリケーションの基礎となっている。
本稿では,2進二進化アルゴリズムを組み込んだ2進埋め込み型検索エンジンを提案する。
私たちは、導入したBEBRをSogou、Tencent Video、QQ Worldなど、Tencent製品にうまく採用しました。
論文 参考訳(メタデータ) (2023-02-17T06:10:02Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Progressively Optimized Bi-Granular Document Representation for Scalable
Embedding Based Retrieval [41.93637130875804]
アドホック検索は、大規模なコーパスから適切な回答を選択することを要求する。
深層学習に基づく文書表現とANN検索技術がこの課題に対処するために連携している。
大きな課題は、ANNインデックスが大きすぎてメモリに収まらないことだ。
本研究では,この問題に対して,粗い候補探索のために,軽量なスパース埋め込みをインデックス化し,メモリ内で待機するバイグラニュラ文書表現を用いて対処する。
論文 参考訳(メタデータ) (2022-01-14T12:02:47Z) - Composably secure data processing for Gaussian-modulated continuous
variable quantum key distribution [58.720142291102135]
連続可変量子鍵分布(QKD)は、ボソニックモードの二次構造を用いて、2つのリモートパーティ間の秘密鍵を確立する。
構成可能な有限サイズセキュリティの一般的な設定におけるホモダイン検出プロトコルについて検討する。
特に、ハイレート(非バイナリ)の低密度パリティチェックコードを使用する必要のあるハイシグネチャ・ツー・ノイズ・システマを解析する。
論文 参考訳(メタデータ) (2021-03-30T18:02:55Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。