論文の概要: Toward Regulatory Compliance: A few-shot Learning Approach to Extract Processing Activities
- arxiv url: http://arxiv.org/abs/2407.09592v1
- Date: Fri, 12 Jul 2024 17:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:38:05.864762
- Title: Toward Regulatory Compliance: A few-shot Learning Approach to Extract Processing Activities
- Title(参考訳): 規則順守に向けて: 処理活動の抽出に向けた数発の学習アプローチ
- Authors: Pragyan K C, Rambod Ghandiparsi, Rocky Slavin, Sepideh Ghanavati, Travis Breaux, Mitra Bokaei Hosseini,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたユーザ認可利用シナリオからRoPAのセグメントを生成する手法を提案する。
本研究は,F1スコアの要約における実例数の有意な影響を示唆するものである。
提案手法は,平均70%のROUGE-L F1スコアで処理アクティビティの要約を成功させる。
- 参考スコア(独自算出の注目度): 2.1903839165439845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread use of mobile applications has driven the growth of the industry, with companies relying heavily on user data for services like targeted advertising and personalized offerings. In this context, privacy regulations such as the General Data Protection Regulation (GDPR) play a crucial role. One of the GDPR requirements is the maintenance of a Record of Processing Activities (RoPA) by companies. RoPA encompasses various details, including the description of data processing activities, their purposes, types of data involved, and other relevant external entities. Small app-developing companies face challenges in meeting such compliance requirements due to resource limitations and tight timelines. To aid these developers and prevent fines, we propose a method to generate segments of RoPA from user-authored usage scenarios using large language models (LLMs). Our method employs few-shot learning with GPT-3.5 Turbo to summarize usage scenarios and generate RoPA segments. We evaluate different factors that can affect few-shot learning performance consistency for our summarization task, including the number of examples in few-shot learning prompts, repetition, and order permutation of examples in the prompts. Our findings highlight the significant influence of the number of examples in prompts on summarization F1 scores, while demonstrating negligible variability in F1 scores across multiple prompt repetitions. Our prompts achieve successful summarization of processing activities with an average 70% ROUGE-L F1 score. Finally, we discuss avenues for improving results through manual evaluation of the generated summaries.
- Abstract(参考訳): モバイルアプリケーションの普及によって業界は成長し、企業はターゲット広告やパーソナライズされたオファリングといったサービスのユーザーデータに大きく依存している。
この文脈では、GDPR(General Data Protection Regulation)のようなプライバシー規制が重要な役割を果たす。
GDPRの要件の1つは、企業による処理記録(RoPA)の維持である。
RoPAには、データ処理アクティビティの記述、その目的、関連するデータの種類、その他の関連する外部エンティティなど、さまざまな詳細が含まれている。
小さなアプリ開発企業は、リソースの制限と厳しいタイムラインのために、このようなコンプライアンス要件を満たすことの難しさに直面している。
そこで本稿では,大規模な言語モデル(LLM)を用いて,ユーザによる使用シナリオからRoPAのセグメントを生成する手法を提案する。
提案手法では,GPT-3.5 Turboを用いて,使用シナリオを要約し,RoPAセグメントを生成する。
要約タスクでは,数発学習のプロンプトにおけるサンプル数,反復回数,命令順順の順列など,数発学習性能の整合性に影響を与えるさまざまな要因を評価した。
本研究は,F1得点が複数回繰り返して無視可能な変動性を示す一方で,F1得点の総和化における実例数の影響を顕著に示すものである。
提案手法は,平均70%のROUGE-L F1スコアで処理アクティビティの要約を成功させる。
最後に、生成された要約を手動で評価することで、結果を改善する方法について議論する。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Re-ranking the Context for Multimodal Retrieval Augmented Generation [28.63893944806149]
Retrieval-augmented Generation (RAG)は、文脈内で応答を生成するために外部知識を組み込むことで、大きな言語モデル(LLM)を強化する。
RAGシステムは固有の課題に直面している: (i) 検索プロセスはユーザクエリ(画像、文書など)への無関係なエントリを選択することができ、 (ii) 視覚言語モデルや GPT-4o のようなマルチモーダル言語モデルは、RAG出力を生成するためにこれらのエントリを処理する際に幻覚を与える。
より高度な関連性尺度を用いることで、知識ベースからより関連性の高い項目を選択して排除することにより、検索プロセスを強化することができることを示す。
論文 参考訳(メタデータ) (2025-01-08T18:58:22Z) - Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis [7.458853474864602]
アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。
近年の研究では、ABSAを生成タスクとして再構成する命令チューニングの固定例が提案されている。
本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-28T10:39:10Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - CASPR: Customer Activity Sequence-based Prediction and Representation [2.0668471963669606]
本稿では、顧客の取引を、顧客とビジネスの関係の一般的な表現にエンコードする新しいアプローチを提案する。
次に、様々なアプリケーションにまたがる複数のモデルをトレーニングする機能として、これらの埋め込みを評価します。
我々の大規模な実験は、小規模および大規模エンタープライズアプリケーションの両方にCASPRを検証します。
論文 参考訳(メタデータ) (2022-11-16T19:46:31Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。