論文の概要: APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation
- arxiv url: http://arxiv.org/abs/2604.27550v1
- Date: Thu, 30 Apr 2026 07:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.97928
- Title: APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation
- Title(参考訳): APPSI-139: 英語アプリケーションプライバシポリシの要約と解釈の並列コーパス
- Authors: Pengyun Zhu, Qiheng Sun, Long Wen, Yanbo Wang, Yang Cao, Junxu Liu, Deyi Xiong, Jinfei Liu, Zhibo Wang, Kui Ren,
- Abstract要約: APPSI-139は、ドメインの専門家によって慎重に注釈付けされた、高品質なイギリスのプライバシーポリシーコーパスである。
本稿では,ハイブリッドプライバシポリシ要約・解釈フレームワークTCSI-pp-V2を提案する。
- 参考スコア(独自算出の注目度): 58.55537543016359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy policies are essential for users to understand how service providers handle their personal data. However, these documents are often long and complex, as well as filled with technobabble and legalese, causing users to unknowingly accept terms that may even contradict the law. While summarizing and interpreting these privacy policies is crucial, there is a lack of high-quality English parallel corpus optimized for legal clarity and readability. To address this issue, we introduce APPSI-139, a high-quality English privacy policy corpus meticulously annotated by domain experts, specifically designed for summarization and interpretation tasks. The corpus includes 139 English privacy policies, 15,692 rewritten parallel corpora, and 36,351 fine-grained annotation labels across 11 data practice categories. Concurrently, we propose TCSI-pp-V2, a hybrid privacy policy summarization and interpretation framework that employs an alternating training strategy and coordinates multiple expert modules to effectively balance computational efficiency and accuracy. Experimental results show that the hybrid summarization system built on APPSI-139 corpus and the TCSI-pp-V2 framework outperform large language models, such as GPT-4o and LLaMA-3-70B, in terms of readability and reliability. The source code and dataset are available at https://github.com/EnlightenedAI/APPSI-139.
- Abstract(参考訳): サービスプロバイダが個人情報をどのように扱うかを理解するためには、プライバシポリシが不可欠だ。
しかし、これらの文書はしばしば長く複雑であり、テクノバブルや法定文で満たされているため、ユーザーは法律に矛盾するかもしれない条件を無意識に受け入れることになる。
これらのプライバシーポリシーの要約と解釈は重要であるが、法的な明確さと可読性のために最適化された高品質の英語並列コーパスが欠如している。
この問題に対処するために,ドメインの専門家が慎重に注釈を付け,要約および解釈タスク用に設計された,高品質な英国のプライバシーポリシーコーパスAPPSI-139を紹介する。
コーパスには、英国のプライバシポリシ139、並列コーパス15,692、データプラクティス11カテゴリにわたる36,351の詳細なアノテーションラベルが含まれている。
同時に,ハイブリッドプライバシポリシの要約・解釈フレームワークであるTCSI-pp-V2を提案する。
実験の結果,APPSI-139コーパスとTCSI-pp-V2フレームワークを用いたハイブリッド要約システムは,可読性と信頼性の観点から,GPT-4oやLLaMA-3-70Bといった大規模言語モデルよりも優れていた。
ソースコードとデータセットはhttps://github.com/EnlightenedAI/APPSI-139で公開されている。
関連論文リスト
- Towards Privacy-Preserving Machine Translation at the Inference Stage: A New Task and Benchmark [52.063283137654196]
現在のオンライン翻訳サービスでは、ユーザテキストをクラウドサーバーに送信する必要がある。
本稿では,モデル推論段階におけるテキスト中のプライベート情報を保護することを目的とした,PPMT(Privacy-Preserving Machine Translation)タスクを提案する。
論文 参考訳(メタデータ) (2026-03-16T02:41:06Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models [41.969546784168905]
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
論文 参考訳(メタデータ) (2023-09-19T01:22:42Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - A Fine-grained Chinese Software Privacy Policy Dataset for Sequence
Labeling and Regulation Compliant Identification [23.14031861460124]
中国初のプライバシポリシデータセットであるCA4P-483を構築し、シークエンスラベリングタスクと規制コンプライアンスの識別を容易にする。
私たちのデータセットには、中国のAndroidアプリケーションプライバシポリシ483、11K以上の文、52Kの細かいアノテーションが含まれています。
論文 参考訳(メタデータ) (2022-12-04T05:59:59Z) - Intent Classification and Slot Filling for Privacy Policies [34.606121042708864]
PolicyIEは、ウェブサイトとモバイルアプリケーションの31のプライバシーポリシーにまたがる5,250の意図と11,788のスロットアノテーションからなるコーパスです。
本研究は,(1)連関タギングとして意図分類とスロット充填を定式化し,(2)シーケンス・ツー・シーケンス学習タスクとしてモデル化する,2つのニューラルネットワークアプローチをベースラインとして提案する。
論文 参考訳(メタデータ) (2021-01-01T00:44:41Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - APPCorp: A Corpus for Android Privacy Policy Document Structure Analysis [16.618995752616296]
この作業では,166ドルのプライバシポリシを含む,手作業によるラベル付きコーパスを作成します。
注釈付きコーパスのアノテーションプロセスと詳細を報告する。
データコーパスを4ドルの文書分類モデルでベンチマークし、結果を徹底的に分析し、研究委員会がコーパスを使用するための課題と機会について議論する。
論文 参考訳(メタデータ) (2020-05-14T13:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。