論文の概要: Towards Scalable and Interpretable Mobile App Risk Analysis via Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15606v1
- Date: Thu, 21 Aug 2025 14:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.365136
- Title: Towards Scalable and Interpretable Mobile App Risk Analysis via Large Language Models
- Title(参考訳): 大規模言語モデルによるスケーラブルで解釈可能なモバイルアプリリスク分析を目指して
- Authors: Yu Yang, Zhenyuan Li, Xiandong Ran, Jiahao Liu, Jiahui Wang, Bo Yu, Shouling Ji,
- Abstract要約: モバイルアプリケーションのマーケットプレースでは,セキュリティリスクの特定と軽減のためにアプリを審査する責任がある。
現在の審査プロセスは労働集約的であり、半自動化ツールによって支援されるセキュリティ専門家による手動分析に依存している。
リスクの自動識別とプロファイリングにLarge Language Models(LLM)を利用するシステムであるMarsを提案する。
- 参考スコア(独自算出の注目度): 36.98842280350961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile application marketplaces are responsible for vetting apps to identify and mitigate security risks. Current vetting processes are labor-intensive, relying on manual analysis by security professionals aided by semi-automated tools. To address this inefficiency, we propose Mars, a system that leverages Large Language Models (LLMs) for automated risk identification and profiling. Mars is designed to concurrently analyze multiple applications across diverse risk categories with minimal human intervention. To enhance analytical precision and operational efficiency, Mars leverages a pre-constructed risk identification tree to extract relevant indicators from high-dimensional application features. This initial step filters the data, reducing the input volume for the LLM and mitigating the potential for model hallucination induced by irrelevant features. The extracted indicators are then subjected to LLM analysis for final risk determination. Furthermore, Mars automatically generates a comprehensive evidence chain for each assessment, documenting the analytical process to provide transparent justification. These chains are designed to facilitate subsequent manual review and to inform enforcement decisions, such as application delisting. The performance of Mars was evaluated on a real-world dataset from a partner Android marketplace. The results demonstrate that Mars attained an F1-score of 0.838 in risk identification and an F1-score of 0.934 in evidence retrieval. To assess its practical applicability, a user study involving 20 expert analysts was conducted, which indicated that Mars yielded a substantial efficiency gain, ranging from 60% to 90%, over conventional manual analysis.
- Abstract(参考訳): モバイルアプリケーションのマーケットプレースでは,セキュリティリスクの特定と軽減のためにアプリを審査する責任がある。
現在の審査プロセスは労働集約的であり、半自動化ツールによって支援されるセキュリティ専門家による手動分析に依存している。
この非効率性に対処するため,リスクの自動識別とプロファイリングにLarge Language Models(LLM)を利用するシステムであるMarsを提案する。
Marsは、人間の介入を最小限に抑えて、さまざまなリスクカテゴリにまたがる複数のアプリケーションを同時に分析するように設計されている。
分析精度と運用効率を向上させるため、火星は構築済みのリスク識別ツリーを活用して、高次元の応用特徴から関連する指標を抽出する。
この初期ステップはデータをフィルタリングし、LCMの入力ボリュームを低減し、無関係な特徴によって誘導されるモデル幻覚の可能性を緩和する。
抽出された指標は、最終リスク判定のためのLLM分析を受ける。
さらに、火星はそれぞれの評価のための包括的なエビデンス連鎖を自動生成し、分析過程を文書化し、透明な正当化を提供する。
これらのチェーンは、その後の手作業によるレビューの促進と、アプリケーションの削除などの強制的な決定を通知するために設計されている。
Marsのパフォーマンスは、パートナーのAndroidマーケットプレースの実際のデータセットで評価された。
その結果、火星のリスク識別におけるF1スコアは0.838、エビデンス検索におけるF1スコアは0.934に達した。
実用性を評価するため、20人の専門家によるユーザースタディが実施され、火星が従来の手動解析よりも60%から90%の効率向上を示した。
関連論文リスト
- Towards automated data analysis: A guided framework for LLM-based risk estimation [0.0]
大規模言語モデル(LLM)は、ますます重要な意思決定パイプラインに統合されている。
この研究は、人間の指導と監督の下で生成AIを統合するデータセットリスク推定のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-04T21:44:22Z) - Machine Learning Algorithms: Detection Official Hajj and Umrah Travel Agency Based on Text and Metadata Analysis [0.0]
インドネシアにおけるHajjとUmrahサービスの急速なデジタル化は、巡礼を大いに促進してきたが、偽造モバイルアプリケーションを通じてデジタル詐欺の道を開いた。
本研究は,アプリケーションの信頼性を自動検証する機械学習アルゴリズムの実装と評価によって,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2025-12-18T16:38:54Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Self-Paced Learning for Images of Antinuclear Antibodies [17.410595974529457]
抗核抗体(ANA)検査は、ループス、シェーグレン症候群、硬化症などの自己免疫疾患を診断するための重要な方法である。
ANA検出は100種以上存在する抗体型によって複雑になり、蛍光パターンの組み合わせが大きくなる。
本稿では,手作業による事前処理を伴わない顕微鏡画像を用いたMIMLタスクの複雑度を扱う新しいANA検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:50:03Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Automated Safety Evaluations Across 20 Large Language Models: The Aymara LLM Risk and Responsibility Matrix [0.0]
Aymara AIは、カスタマイズされたポリシーに基づく安全評価の生成と管理のためのプログラムプラットフォームである。
自然言語の安全ポリシーを敵のプロンプトに変換し、人間の判断に対して検証されたAIベースのレーダを使用してモデル応答をスコアする。
論文 参考訳(メタデータ) (2025-07-19T18:49:16Z) - Benchmarking Foundation Models for Zero-Shot Biometric Tasks [8.276938046158163]
基礎モデル、特にVLM(Vision-Language Models)とMLLM(Multi-modal Large Language Models)は、人工知能のフロンティアを再定義した。
本研究では,6つのバイオメトリック・タスクにわたる最先端のVLMとMLLMのゼロショット性能と少数ショット性能を評価するベンチマークを提案する。
実験により、これらの基礎モデルからの埋め込みは、様々な成功度を持つ多様な生体計測タスクに利用できることが示された。
論文 参考訳(メタデータ) (2025-05-30T04:53:55Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。