論文の概要: Can Large Language Models Detect Real-World Android Software Compliance Violations?
- arxiv url: http://arxiv.org/abs/2511.00624v1
- Date: Sat, 01 Nov 2025 16:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.868077
- Title: Can Large Language Models Detect Real-World Android Software Compliance Violations?
- Title(参考訳): 大規模言語モデルは現実のAndroidソフトウェアコンプライアンス違反を検出できるか?
- Authors: Haoyi Zhang, Huaijin Ran, Xunzhu Tang,
- Abstract要約: 現在のモデルは、さまざまな法律フレームワークにわたるAndroidアプリケーションのコンプライアンス違反を検出するのに苦労している。
コンプライアンス違反を検知するLLMの能力を評価するための新しい評価フレームワークであるemphCompliBenchを提案する。
GPT-4OやClaude-3.5を含む6つのモデルによる実験では、emphCompliBenchはコンプライアンス検出を改善している。
- 参考スコア(独自算出の注目度): 3.7278558081099544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Large Language Models (LLMs) has transformed software engineering, showing promise in tasks like code generation, bug detection, and compliance checking. However, current models struggle to detect compliance violations in Android applications across diverse legal frameworks. We propose \emph{CompliBench}, a novel evaluation framework for assessing LLMs' ability to detect compliance violations under regulations like LGPD, PDPA, and PIPEDA. The framework defines two tasks: Task 1 evaluates \emph{retrieval and localization} at file, module, and line granularities, and Task 2 assesses \emph{multi-label judgment} for code snippets. These tasks mirror the audit process, where auditors locate problematic code and determine implicated provisions. Traditional metrics fail to capture important aspects like cross-granularity stability and jurisdictional consistency. Thus, we introduce stability-aware composites (SGS, RCS, CRGS, and OCS) for a more comprehensive assessment. Experiments with six models, including GPT-4O and Claude-3.5, show \emph{CompliBench} improves compliance detection, with Claude-3.5-sonnet-20241022 achieving the highest OCS score (0.3295), and Gemini-2.5-pro the lowest (0.0538). This work demonstrates \emph{CompliBench}'s potential for improving LLM performance in compliance tasks and provides a foundation for future tools aligned with data protection standards. Our project is available at https://github.com/Haoyi-Zhang/CompliBench.
- Abstract(参考訳): LLM(Large Language Models)の急速な開発は、コード生成やバグ検出、コンプライアンスチェックといったタスクにおいて、ソフトウェアエンジニアリングを変革した。
しかし、現在のモデルは、さまざまな法律フレームワークにわたるAndroidアプリケーションのコンプライアンス違反を検出するのに苦労している。
本稿では,LGPD,PDPA,PIPEDAなどの規制下でのコンプライアンス違反の検出能力を評価するための新しい評価フレームワークであるemph{CompliBench}を提案する。
Task 1はファイル、モジュール、行の粒度で \emph{retrieval and localization} を評価し、Task 2はコードスニペットに対して \emph{multi-label judgment} を評価する。
これらのタスクは監査プロセスを反映し、監査人が問題のあるコードを見つけ、関連する規定を決定する。
従来のメトリクスは、粒度間の安定性や司法の整合性といった重要な側面を捉えることができません。
そこで我々は,より総合的な評価のために,安定性を考慮した複合材料 (SGS, RCS, CRGS, OCS) を導入する。
GPT-4OやClaude-3.5を含む6つのモデルによる実験では、コンプライアンス検出の改善が示され、Claude-3.5-sonnet-20241022は最高スコア(0.3295)、Gemini-2.5-proは最低スコア(0.0538)を達成した。
この研究は、コンプライアンスタスクにおけるLLMパフォーマンスを改善するための \emph{CompliBench} の可能性を実証し、データ保護標準に準拠した将来のツールの基礎を提供する。
私たちのプロジェクトはhttps://github.com/Haoyi-Zhang/CompliBench.comで利用可能です。
関連論文リスト
- Do Large Language Models Respect Contracts? Evaluating and Enforcing Contract-Adherence in Code Generation [11.445615378917578]
PACTは、プログラムアセスメントおよび契約順応評価フレームワークである。
契約違反に焦点を当てた包括的なテストスーツコーパスを提供する。
様々なプロンプト条件下でのコード生成の体系的解析を可能にする。
論文 参考訳(メタデータ) (2025-10-14T01:12:37Z) - LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python [0.0]
ChatGPT-4、Claude 3、LLaMA 4のような大規模言語モデル(LLM)は、ソフトウェア/アプリケーション開発にますます組み込まれている。
本研究では,プログラムエラー,古典的セキュリティ欠陥,およびC++とPythonの高度なプロダクショングレードバグのベンチマークを用いて,これら3つの主要なLCMの体系的,実証的な評価を行う。
論文 参考訳(メタデータ) (2025-08-22T14:30:24Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - VERINA: Benchmarking Verifiable Code Generation [46.582574591358735]
大規模言語モデル(LLM)は、ソフトウェア開発にますます統合されている。
LLM生成コードの正確性を保証することは依然として困難である。
検証可能なコード生成は、この制限に対処するための有望なパスを提供する。
論文 参考訳(メタデータ) (2025-05-29T06:12:52Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。