論文の概要: Toward Regulatory Compliance: A few-shot Learning Approach to Extract Processing Activities
- arxiv url: http://arxiv.org/abs/2407.09592v1
- Date: Fri, 12 Jul 2024 17:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:38:05.864762
- Title: Toward Regulatory Compliance: A few-shot Learning Approach to Extract Processing Activities
- Title(参考訳): 規則順守に向けて: 処理活動の抽出に向けた数発の学習アプローチ
- Authors: Pragyan K C, Rambod Ghandiparsi, Rocky Slavin, Sepideh Ghanavati, Travis Breaux, Mitra Bokaei Hosseini,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたユーザ認可利用シナリオからRoPAのセグメントを生成する手法を提案する。
本研究は,F1スコアの要約における実例数の有意な影響を示唆するものである。
提案手法は,平均70%のROUGE-L F1スコアで処理アクティビティの要約を成功させる。
- 参考スコア(独自算出の注目度): 2.1903839165439845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread use of mobile applications has driven the growth of the industry, with companies relying heavily on user data for services like targeted advertising and personalized offerings. In this context, privacy regulations such as the General Data Protection Regulation (GDPR) play a crucial role. One of the GDPR requirements is the maintenance of a Record of Processing Activities (RoPA) by companies. RoPA encompasses various details, including the description of data processing activities, their purposes, types of data involved, and other relevant external entities. Small app-developing companies face challenges in meeting such compliance requirements due to resource limitations and tight timelines. To aid these developers and prevent fines, we propose a method to generate segments of RoPA from user-authored usage scenarios using large language models (LLMs). Our method employs few-shot learning with GPT-3.5 Turbo to summarize usage scenarios and generate RoPA segments. We evaluate different factors that can affect few-shot learning performance consistency for our summarization task, including the number of examples in few-shot learning prompts, repetition, and order permutation of examples in the prompts. Our findings highlight the significant influence of the number of examples in prompts on summarization F1 scores, while demonstrating negligible variability in F1 scores across multiple prompt repetitions. Our prompts achieve successful summarization of processing activities with an average 70% ROUGE-L F1 score. Finally, we discuss avenues for improving results through manual evaluation of the generated summaries.
- Abstract(参考訳): モバイルアプリケーションの普及によって業界は成長し、企業はターゲット広告やパーソナライズされたオファリングといったサービスのユーザーデータに大きく依存している。
この文脈では、GDPR(General Data Protection Regulation)のようなプライバシー規制が重要な役割を果たす。
GDPRの要件の1つは、企業による処理記録(RoPA)の維持である。
RoPAには、データ処理アクティビティの記述、その目的、関連するデータの種類、その他の関連する外部エンティティなど、さまざまな詳細が含まれている。
小さなアプリ開発企業は、リソースの制限と厳しいタイムラインのために、このようなコンプライアンス要件を満たすことの難しさに直面している。
そこで本稿では,大規模な言語モデル(LLM)を用いて,ユーザによる使用シナリオからRoPAのセグメントを生成する手法を提案する。
提案手法では,GPT-3.5 Turboを用いて,使用シナリオを要約し,RoPAセグメントを生成する。
要約タスクでは,数発学習のプロンプトにおけるサンプル数,反復回数,命令順順の順列など,数発学習性能の整合性に影響を与えるさまざまな要因を評価した。
本研究は,F1得点が複数回繰り返して無視可能な変動性を示す一方で,F1得点の総和化における実例数の影響を顕著に示すものである。
提案手法は,平均70%のROUGE-L F1スコアで処理アクティビティの要約を成功させる。
最後に、生成された要約を手動で評価することで、結果を改善する方法について議論する。
関連論文リスト
- Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は抽象命題セグメンテーションの課題に焦点を当てる。
本稿では,スケーラブルで精度の高い命題セグメンテーションモデルを提案する。
論文の重要なコントリビューションとして、NLP実践者が利用できる使いやすいAPIを共有します。
論文 参考訳(メタデータ) (2024-06-28T10:24:31Z) - Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis [7.458853474864602]
アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。
近年の研究では、ABSAを生成タスクとして再構成する命令チューニングの固定例が提案されている。
本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-28T10:39:10Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - CASPR: Customer Activity Sequence-based Prediction and Representation [2.0668471963669606]
本稿では、顧客の取引を、顧客とビジネスの関係の一般的な表現にエンコードする新しいアプローチを提案する。
次に、様々なアプリケーションにまたがる複数のモデルをトレーニングする機能として、これらの埋め込みを評価します。
我々の大規模な実験は、小規模および大規模エンタープライズアプリケーションの両方にCASPRを検証します。
論文 参考訳(メタデータ) (2022-11-16T19:46:31Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。