論文の概要: GDPR-Bench-Android: A Benchmark for Evaluating Automated GDPR Compliance Detection in Android
- arxiv url: http://arxiv.org/abs/2511.00619v1
- Date: Sat, 01 Nov 2025 16:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.86605
- Title: GDPR-Bench-Android: A Benchmark for Evaluating Automated GDPR Compliance Detection in Android
- Title(参考訳): GDPR-Bench-Android: AndroidにおけるGDPR準拠の自動検出評価ベンチマーク
- Authors: Huaijin Ran, Haoyi Zhang, Xunzhu Tang,
- Abstract要約: 我々は,8つの状態LLM,フォーマルASTアナライザ,検索拡張(RAG)法,エージェント(ReAST)法を含む11の手法をベンチマークした。
以上の結果から,全てのタスクに共通するパラダイムは存在しないことが判明した。
- 参考スコア(独自算出の注目度): 3.7278558081099544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating the detection of EU General Data Protection Regulation (GDPR) violations in source code is a critical but underexplored challenge. We introduce \textbf{GDPR-Bench-Android}, the first comprehensive benchmark for evaluating diverse automated methods for GDPR compliance detection in Android applications. It contains \textbf{1951} manually annotated violation instances from \textbf{15} open-source repositories, covering 23 GDPR articles at file-, module-, and line-level granularities. To enable a multi-paradigm evaluation, we contribute \textbf{Formal-AST}, a novel, source-code-native formal method that serves as a deterministic baseline. We define two tasks: (1) \emph{multi-granularity violation localization}, evaluated via Accuracy@\textit{k}; and (2) \emph{snippet-level multi-label classification}, assessed by macro-F1 and other classification metrics. We benchmark 11 methods, including eight state-of-the-art LLMs, our Formal-AST analyzer, a retrieval-augmented (RAG) method, and an agentic (ReAct) method. Our findings reveal that no single paradigm excels across all tasks. For Task 1, the ReAct agent achieves the highest file-level Accuracy@1 (17.38%), while the Qwen2.5-72B LLM leads at the line level (61.60%), in stark contrast to the Formal-AST method's 1.86%. For the difficult multi-label Task 2, the Claude-Sonnet-4.5 LLM achieves the best Macro-F1 (5.75%), while the RAG method yields the highest Macro-Precision (7.10%). These results highlight the task-dependent strengths of different automated approaches and underscore the value of our benchmark in diagnosing their capabilities. All resources are available at: https://github.com/Haoyi-Zhang/GDPR-Bench-Android.
- Abstract(参考訳): ソースコードにおけるEU一般データ保護規則(GDPR)違反の検出を自動化することは、重要だが未調査の課題である。
これは、AndroidアプリケーションにおけるGDPRコンプライアンス検出のための多様な自動手法を評価するための、最初の包括的なベンチマークである。
ファイル、モジュール、行レベルの粒度で23のGDPR記事をカバーする。
マルチパラダイム評価を実現するために,決定論的ベースラインとして機能する,新しいソースコードネイティブな形式手法である \textbf{Formal-AST} を寄贈する。
我々は,(1)\emph{multi-granularity violation localization} と (2)\emph{snippet-level multi-label classification} の2つのタスクを定義した。
我々は8つの最先端LCM、フォーマルASTアナライザ、検索拡張(RAG)法、エージェント(ReAct)法を含む11の手法をベンチマークした。
以上の結果から,全てのタスクに共通するパラダイムは存在しないことが判明した。
Task 1 では、ReAct エージェントはファイルレベルの最も高い Accuracy@1 (17.38%) を達成する一方、Qwen2.5-72B LLM は Formal-AST メソッドの 1.86% とは対照的に、ラインレベル (61.60%) でリードする。
難しいマルチラベルタスク2では、Claude-Sonnet-4.5 LLMが最高のマクロF1(5.75%)を達成し、RAG法は最高マクロ精度(7.10%)を得る。
これらの結果は、異なる自動化アプローチのタスク依存の強みを強調し、その能力の診断におけるベンチマークの価値を強調します。
すべてのリソースは、https://github.com/Haoyi-Zhang/GDPR-Bench-Androidで利用可能である。
関連論文リスト
- Automated Extract Method Refactoring with Open-Source LLMs: A Comparative Study [35.50372545468027]
抽出方法(EMR)は、コードの可読性や保守性の改善が重要であるにもかかわらず、依然として困難で手作業がほとんどである。
オープンソースのリソース効率の高い大規模言語モデル(LLM)の最近の進歩は、そのようなハイレベルなタスクに対して、有望な新しいアプローチを提供する。
論文 参考訳(メタデータ) (2025-10-30T13:34:41Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - Align-then-Slide: A complete evaluation framework for Ultra-Long Document-Level Machine Translation [26.418216341998953]
ウルトラロングドク-mtの完全な評価フレームワークであるtextittextbfAlign-then-Slide を導入する。
Alignの段階では、文レベルのソースターゲット対応を自動的に推測し、ターゲットを元の文番号に合わせるように再構築する。
n-Chunkスライディング評価段階において,多粒度評価のための1-,2-,3-,4-chunkの平均値を算出する。
論文 参考訳(メタデータ) (2025-09-04T01:50:20Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation
Identification Through a Prompt-based Few-shot Approach [3.4423596432619754]
我々は、微調整言語モデル(LM)のための単純だが相補的手法のセットを活用することで、因果関係同定(CRI)タスクに対処する。
我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う微調整LMのプロンプトベースの予測手法に従う。
本手法の性能を,データセット全体で訓練されたアンサンブル手法と比較する。
論文 参考訳(メタデータ) (2022-09-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。