論文の概要: Concept Drift Adaptation Using Self-Supervised and Reinforcement Learning In Android Malware Detection
- arxiv url: http://arxiv.org/abs/2605.24294v1
- Date: Fri, 22 May 2026 23:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.85003
- Title: Concept Drift Adaptation Using Self-Supervised and Reinforcement Learning In Android Malware Detection
- Title(参考訳): Android マルウェア検出における自己監督型強化学習を用いたコンセプトドリフト適応
- Authors: Ahmed Sabbah, Mohammad Kharma, Mohammad Alkhanafseh, Radi Jarrar, Samer Zein, David Mohaisen,
- Abstract要約: 逐次的決定問題として,デプロイメント時間メンテナンスをモデル化する時系列適応型メンテナンスフレームワークを提案する。
ポリシー最適化コントローラは、検出器状態に基づいて低コストの保守動作を選択する。
その結果、RLコントローラは強力なコスト認識適応戦略を提供することがわかった。
- 参考スコア(独自算出の注目度): 9.493071661387596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Android malware detectors often degrade after deployment because of concept drift, while full retraining at each maintenance step is costly. We propose a chronological adaptive maintenance framework that models deployment-time maintenance as a sequential decision problem. The framework learns a stable latent representation through self-supervised learning during initialization, freezes the encoder, measures latent drift in the fixed representation space, and performs lightweight downstream adaptation using a trainable adapter and classification head. A proximal policy optimization controller selects low-cost maintenance actions based on the detector state, including current utility, retention on a fixed memory set, latent drift indicators, and update cost. We evaluate the framework under a causal deployment-style protocol on emulator and real Android malware datasets with static and dynamic features. Results show that the RL controller provides a strong cost-aware adaptation strategy, consistently remaining among the top-performing policies while achieving a favorable balance between temporal performance, memory retention, and maintenance cost under non-stationary deployment conditions.
- Abstract(参考訳): Androidのマルウェア検出装置は、コンセプトドリフトのためにデプロイ後に劣化することが多いが、メンテナンスステップごとにフルリトレーニングを行うにはコストがかかる。
逐次的決定問題として,デプロイメント時間メンテナンスをモデル化した時系列適応型メンテナンスフレームワークを提案する。
フレームワークは、初期化中の自己教師付き学習を通じて安定した潜伏表現を学習し、エンコーダを凍結し、固定表現空間における潜伏ドリフトを測定し、トレーニング可能なアダプタと分類ヘッドを用いて軽量な下流適応を行う。
近ポリシー最適化コントローラは、現在のユーティリティ、固定メモリセットの保持、潜伏ドリフトインジケータ、更新コストを含む検出器状態に基づいて、低コストの保守動作を選択する。
本フレームワークは,エミュレータと実際のAndroidマルウェアデータセット上で,静的かつ動的機能を備えた因果的なデプロイメントスタイルのプロトコルで評価する。
その結果、RLコントローラは、時間的性能、メモリ保持、非定常配置条件下でのメンテナンスコストのバランスを良好に保ちながら、最高性能のポリシーに一貫して留まり、高いコストを意識した適応戦略を提供することが示された。
関連論文リスト
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control [33.03635235189535]
動作合成を反復的最適化に変換する時間非条件フレームワークGeCOについて紹介する。
テスト時間推論は、単純な状態に対して収束開始早期に基づいて計算を割り当てる適応的なプロセスとなり、難しい状態に対してはより長く精製する。
我々は,GeCOを標準シミュレーションベンチマークで検証し,pi0シリーズのVision-Language-Action(VLA)モデルにシームレスなスケーリングを示す。
論文 参考訳(メタデータ) (2026-03-18T15:27:17Z) - Modeling and Controlling Deployment Reliability under Temporal Distribution Shift [1.4323566945483497]
本稿では、信頼性を差別と校正からなる動的状態として扱うデプロイメント中心のフレームワークを提案する。
転がりリトレーニングよりもスムーズな信頼性トラジェクトリを実現することができることを示す。
論文 参考訳(メタデータ) (2026-03-01T17:18:44Z) - TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation [45.864084191741135]
ポストトレーニングは、事前訓練されたビデオジェネレータをプロダクション指向のモデルに変換するための決定的なステップである。
本報告では,指導的政策形成,報酬駆動型強化学習,嗜好に基づく改善を組織化する,体系的なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-07T15:49:25Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - AdaShadow: Responsive Test-time Model Adaptation in Non-stationary Mobile Environments [24.606016498430407]
本稿では,非定常移動データ配信と資源動態のための応答性テスト時間適応フレームワークであるAdaShadowを提案する。
AdaShadowは、レイヤの重要度とレイテンシを推定する上での課題と、最適なレイヤ更新計画のスケジューリングに対処する。
その結果,AdaShadowは連続的なシフトの下で最高の精度-遅延バランスを達成することがわかった。
論文 参考訳(メタデータ) (2024-10-10T16:41:39Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。