論文の概要: Scale-free Characteristics of Multilingual Legal Texts and the Limitations of LLMs
- arxiv url: http://arxiv.org/abs/2509.17367v1
- Date: Mon, 22 Sep 2025 05:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.235632
- Title: Scale-free Characteristics of Multilingual Legal Texts and the Limitations of LLMs
- Title(参考訳): 多言語法的テキストのスケールフリー特性とLLMの限界
- Authors: Haoyang Chen, Kumiko Tanaka-Ishii,
- Abstract要約: 我々は、Heapsの指数$beta$(語彙成長)、Taylorの指数$alpha$(単語周波数変動スケーリング)、圧縮率$r$(冗長性)、エントロピーを通じて、言語学的複雑さを定量化する。
法的テキストは、一般的なテキストよりも語彙の伸びが遅い($beta$より低い)し、より長期の一貫性が高い($alpha$より高い)。
- 参考スコア(独自算出の注目度): 10.635248457021497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a comparative analysis of text complexity across domains using scale-free metrics. We quantify linguistic complexity via Heaps' exponent $\beta$ (vocabulary growth), Taylor's exponent $\alpha$ (word-frequency fluctuation scaling), compression rate $r$ (redundancy), and entropy. Our corpora span three domains: legal documents (statutes, cases, deeds) as a specialized domain, general natural language texts (literature, Wikipedia), and AI-generated (GPT) text. We find that legal texts exhibit slower vocabulary growth (lower $\beta$) and higher term consistency (higher $\alpha$) than general texts. Within legal domain, statutory codes have the lowest $\beta$ and highest $\alpha$, reflecting strict drafting conventions, while cases and deeds show higher $\beta$ and lower $\alpha$. In contrast, GPT-generated text shows the statistics more aligning with general language patterns. These results demonstrate that legal texts exhibit domain-specific structures and complexities, which current generative models do not fully replicate.
- Abstract(参考訳): 本稿では,スケールフリーなメトリクスを用いて,ドメイン間でのテキストの複雑さの比較分析を行う。
我々は、Heapsの指数$\beta$(語彙成長)、Taylorの指数$\alpha$(単語周波数変動スケーリング)、圧縮率$r$(冗長性)、エントロピーを通じて、言語学的複雑さを定量化する。
我々のコーパスは、専門分野としての法的文書(法律、事件、行為)、一般自然言語テキスト(文学、ウィキペディア)、AI生成テキスト(GPT)の3つの領域にまたがる。
法的テキストは、一般的なテキストよりも語彙の伸びが遅い($\beta$より低い)し、より長期の一貫性が高い($\alpha$より高い)。
法定ドメイン内では、法定コードは、厳格な起草規則を反映して、最低の$\beta$と最高の$\alpha$を持ち、一方、ケースとデリは、より高い$\beta$と低い$\alpha$を示している。
対照的に、GPT生成したテキストは、一般的な言語パターンとより整合した統計を示す。
これらの結果は、法的なテキストがドメイン固有の構造と複雑さを示しており、現在の生成モデルは完全には複製されないことを示している。
関連論文リスト
- QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities [13.657259851747126]
コンテンツの証明は、教育機関、ソーシャルメディアプラットフォーム、企業など、多くの組織の機能に不可欠である。
LLM(Large Language Models)が生成するテキストが、人間が生成したコンテンツとほとんど区別できないようになるにつれて、この問題はますます難しくなってきている。
本稿では,あるテキストが与えられた場合,特定の LLM が生成したかどうかを特定できるのか,という問いに答える。
LLM生成したテキストは、歴史に完全に依存したシーケンシャルなプロセスとしてモデル化し、ゼロショット統計テストを設計し、2つの異なるLCM集合によって生成されたテキストを区別する。
論文 参考訳(メタデータ) (2025-01-04T23:51:43Z) - Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [63.31836335569654]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。
我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文 参考訳(メタデータ) (2024-06-18T21:31:19Z) - Semi-Supervised Spoken Language Glossification [101.31035869691462]
Spoken Language glossification (SLG) は、音声言語のテキストを手話のグロスに変換することを目的としている。
我々はSLGに$S$emi-$S$upervised$S$poken$L$anguage$G$lossification$S3$LGというフレームワークを提示する。
論文 参考訳(メタデータ) (2024-06-12T13:05:27Z) - Unsupervised Simplification of Legal Texts [0.0]
法律テキスト(USLT)の教師なし簡易化手法を提案する。
USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。
我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-01T15:58:12Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。