論文の概要: Large Language Models and Forensic Linguistics: Navigating Opportunities and Threats in the Age of Generative AI
- arxiv url: http://arxiv.org/abs/2512.06922v1
- Date: Sun, 07 Dec 2025 17:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.590505
- Title: Large Language Models and Forensic Linguistics: Navigating Opportunities and Threats in the Age of Generative AI
- Title(参考訳): 大規模言語モデルと法学言語学:ジェネレーティブAI時代の機会と脅威をナビゲートする
- Authors: George Mikros,
- Abstract要約: 大規模言語モデル(LLM)は、スケーラブルなコーパス分析と埋め込みベースのオーサシップ属性を実現する強力な分析ツールとして機能する。
近年のスタイリスティックな研究は、LLMが表面のスタイリスティックな特徴を近似できるが、ヒトのライターとの違いが検出可能であることを示唆している。
この論文は、法医学的言語学は科学的に信頼性があり法的に許容されるように、方法論的な再構成を必要とすると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) present a dual challenge for forensic linguistics. They serve as powerful analytical tools enabling scalable corpus analysis and embedding-based authorship attribution, while simultaneously destabilising foundational assumptions about idiolect through style mimicry, authorship obfuscation, and the proliferation of synthetic texts. Recent stylometric research indicates that LLMs can approximate surface stylistic features yet exhibit detectable differences from human writers, a tension with significant forensic implications. However, current AI-text detection techniques, whether classifier-based, stylometric, or watermarking approaches, face substantial limitations: high false positive rates for non-native English writers and vulnerability to adversarial strategies such as homoglyph substitution. These uncertainties raise concerns under legal admissibility standards, particularly the Daubert and Kumho Tire frameworks. The article concludes that forensic linguistics requires methodological reconfiguration to remain scientifically credible and legally admissible. Proposed adaptations include hybrid human-AI workflows, explainable detection paradigms beyond binary classification, and validation regimes measuring error and bias across diverse populations. The discipline's core insight, i.e., that language reveals information about its producer, remains valid but must accommodate increasingly complex chains of human and machine authorship.
- Abstract(参考訳): 大規模言語モデル (LLM) は、法医学的言語学において二重の課題を示す。
これらは、スケーラブルなコーパス分析と埋め込みベースの著者帰属を可能にする強力な分析ツールとして機能し、同時にスタイルの模倣、著者難読化、合成テキストの拡散を通じてイディオレクトに関する基礎的な仮定を不安定化させる。
近年のスタイリスティックな研究は、LLMが表面のスタイリスティックな特徴を近似できるが、人間との違いが検出可能であることを示唆している。
しかし、現在のAIテキスト検出技術(分類器ベース、スタイル、透かしアプローチなど)は、非ネイティブな英語作家にとって高い偽陽性率、ホモグリフ置換のような敵の戦略に対する脆弱性など、かなりの制限に直面している。
これらの不確実性は、法的な許容基準、特にダウベルトとクムホ・タイアの枠組みの下で懸念を提起する。
この論文は、法医学的言語学は科学的に信頼性があり法的に許容されるように、方法論的な再構成を必要とすると結論付けている。
提案されている適応には、ハイブリッドなヒューマンAIワークフロー、バイナリ分類を超えた説明可能な検出パラダイム、さまざまな集団にわたるエラーとバイアスを測定する検証規則が含まれる。
この分野の中核的な洞察、すなわち、その生産者に関する情報を明らかにする言語は依然として有効であるが、人間と機械の著者の複雑な連鎖をますます受け入れなければならない。
関連論文リスト
- StyleDecipher: Robust and Explainable Detection of LLM-Generated Texts with Stylistic Analysis [18.44456241158174]
StyleDecipherは堅牢で説明可能な検出フレームワークである。
組み合わせた特徴抽出器を用いてテキスト検出を再検討し、構造的差異を定量化する。
常に最先端のドメイン内精度を達成する。
論文 参考訳(メタデータ) (2025-10-14T15:07:27Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - When Large Language Models Meet Law: Dual-Lens Taxonomy, Technical Advances, and Ethical Governance [7.743029842436036]
本稿では,Large Language Models (LLM) の総合的なレビューを行う。
トランスフォーマーベースのLLMは、文脈推論や生成的議論のような創発的な能力を示す。
本稿では,法的な役割を計算的にサブタスクにマッピングし,トゥールミン論証フレームワークを実装した新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-07-10T13:26:34Z) - From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。
本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。
議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。
モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文 参考訳(メタデータ) (2024-11-06T15:40:02Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Neural Authorship Attribution: Stylometric Analysis on Large Language
Models [16.63955074133222]
GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)は、AIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
論文 参考訳(メタデータ) (2023-08-14T17:46:52Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。