論文の概要: Transforming Sensitive Documents into Quantitative Data: An AI-Based Preprocessing Toolchain for Structured and Privacy-Conscious Analysis
- arxiv url: http://arxiv.org/abs/2507.10582v1
- Date: Fri, 11 Jul 2025 11:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.747442
- Title: Transforming Sensitive Documents into Quantitative Data: An AI-Based Preprocessing Toolchain for Structured and Privacy-Conscious Analysis
- Title(参考訳): 感性ドキュメントを定量的データに変換する - 構造化およびプライバシ意識分析のためのAIベースの前処理ツールチェーン
- Authors: Anders Ledberg, Anna Thalén,
- Abstract要約: 大規模分析は、機密性の高い個人識別可能な情報の存在によって妨げられる。
埋め込み型解析のためのテキストデータを作成するモジュラーツールチェーンを提案する。
スウェーデンの裁判所判決10,842件のコーパス上で,このツールチェーンを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured text from legal, medical, and administrative sources offers a rich but underutilized resource for research in public health and the social sciences. However, large-scale analysis is hampered by two key challenges: the presence of sensitive, personally identifiable information, and significant heterogeneity in structure and language. We present a modular toolchain that prepares such text data for embedding-based analysis, relying entirely on open-weight models that run on local hardware, requiring only a workstation-level GPU and supporting privacy-sensitive research. The toolchain employs large language model (LLM) prompting to standardize, summarize, and, when needed, translate texts to English for greater comparability. Anonymization is achieved via LLM-based redaction, supplemented with named entity recognition and rule-based methods to minimize the risk of disclosure. We demonstrate the toolchain on a corpus of 10,842 Swedish court decisions under the Care of Abusers Act (LVM), comprising over 56,000 pages. Each document is processed into an anonymized, standardized summary and transformed into a document-level embedding. Validation, including manual review, automated scanning, and predictive evaluation shows the toolchain effectively removes identifying information while retaining semantic content. As an illustrative application, we train a predictive model using embedding vectors derived from a small set of manually labeled summaries, demonstrating the toolchain's capacity for semi-automated content analysis at scale. By enabling structured, privacy-conscious analysis of sensitive documents, our toolchain opens new possibilities for large-scale research in domains where textual data was previously inaccessible due to privacy and heterogeneity constraints.
- Abstract(参考訳): 法、医学、行政ソースからの構造化されていないテキストは、公衆衛生や社会科学の研究に豊富だが未利用の資源を提供している。
しかし、大規模な分析は、機密性の高い個人識別可能な情報の存在と、構造と言語における重要な異質性という2つの主要な課題によって妨げられている。
ローカルハードウェア上で動作するオープンウェイトモデルに完全に依存し,ワークステーションレベルのGPUのみを必要とし,プライバシに敏感な調査をサポートする。
ツールチェーンは大きな言語モデル(LLM)を採用しており、必要に応じてテキストを英語に翻訳し、よりコンパラビリティを高める。
匿名化はLLMベースのリアクションによって達成され、匿名化のリスクを最小限に抑えるために、名前付きエンティティ認識とルールベースのメソッドが補足される。
このツールチェーンは、スウェーデンのCare of Abusers Act (LVM)の下で10,842の判決を下し、56,000ページ以上に及ぶ。
各ドキュメントは匿名化された標準化された要約に処理され、ドキュメントレベルの埋め込みに変換される。
手動レビュー、自動スキャン、予測評価を含む検証は、ツールチェーンがセマンティックコンテンツを保持しながら、識別情報を効果的に除去することを示している。
具体的応用として、手動でラベル付けされた小セットの要約から導かれる埋め込みベクトルを用いて予測モデルを訓練し、ツールチェーンが大規模に半自動コンテンツ分析を行う能力を示す。
機密文書の構造化されたプライバシーを意識した分析を可能にすることで、当社のツールチェーンは、プライバシと異種性の制約によりテキストデータが以前はアクセスできない領域における大規模研究の新たな可能性を開く。
関連論文リスト
- Re-Initialization Token Learning for Tool-Augmented Large Language Models [49.91503552002649]
大規模言語モデルは例外的な性能を示してきたが、数値推論や計画生成といった複雑なタスクに苦戦している。
本稿では,ツールトークンを既存の単語埋め込み空間と整合させる新しいトークン学習手法を提案する。
本稿では,GSM8K-XL,FuncQA,KAMEL,VirtualHomeのデータセットを用いて,数値推論,知識に基づく質問応答,具体化計画生成などのタスクについて評価する。
論文 参考訳(メタデータ) (2025-06-17T07:11:00Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Transforming Unstructured Text into Data with Context Rule Assisted
Machine Learning (CRAML) [0.0]
コンテキストルール支援機械学習(CRAML)法は、大量の非構造化テキストの正確な再現可能なラベル付けを可能にする。
CRAMLにより、ドメインの専門家はドキュメントコーパス内に埋もれている珍しい構造にアクセスすることができる。
CRAMLのユースケースは3つある: テキストデータから得られた最近の管理文献を分析し、プロプライエタリな求人広告テキストの分析から新しい機械学習モデルを記述・リリースし、フランチャイズ文書の公開コーパスから社会的・経済的関心の発見を示す。
論文 参考訳(メタデータ) (2023-01-20T13:12:35Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。