論文の概要: Towards Benchmarking Design Pattern Detection Under Obfuscation: Reproducing and Evaluating Attention-Based Detection Method
- arxiv url: http://arxiv.org/abs/2512.07193v1
- Date: Mon, 08 Dec 2025 06:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.731877
- Title: Towards Benchmarking Design Pattern Detection Under Obfuscation: Reproducing and Evaluating Attention-Based Detection Method
- Title(参考訳): 難読化設計パターン検出のベンチマーク化に向けて:注意に基づく検出手法の再現と評価
- Authors: Manthan Shenoy, Andreas Rausch,
- Abstract要約: 学習型分類器を用いた注意型デザインパターン検出手法DPDAttを再現し,その性能評価を行う。
以上の結果から,これらの訓練された分類器は表面的構文的特徴に大きく依存していることが判明した。
この作業は、ソースコードのより深い意味をキャプチャできる、より堅牢な検出ツールの必要性を強調している。
- 参考スコア(独自算出の注目度): 2.1843439591862333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the semantic robustness of attention-based classifiers for design pattern detection, particularly focusing on their reliance on structural and behavioral semantics. We reproduce the DPDAtt, an attention-based design pattern detection approach using learning-based classifiers, and evaluate its performance under obfuscation. To this end, we curate an obfuscated version of the DPDAtt Corpus, where the name identifiers in code such as class names, method names, etc., and string literals like print statements and comment blocks are replaced while preserving control flow, inheritance, and logic. Our findings reveal that these trained classifiers in DPDAtt depend significantly on superficial syntactic features, leading to substantial misclassification when such cues are removed through obfuscation. This work highlights the need for more robust detection tools capable of capturing deeper semantic meanings in source code. We propose our curated Obfuscated corpus (containing 34 Java source files) as a reusable proof-of-concept benchmark for evaluating state-of-the-art design pattern detectors on their true semantic generalization capabilities.
- Abstract(参考訳): 本稿では,デザインパターン検出のための注意型分類器のセマンティックロバスト性について検討し,特に構造的・行動的意味論への依存に着目した。
学習型分類器を用いた注意型デザインパターン検出手法DPDAttを再現し,その性能評価を行う。
この目的のために、DPDAtt Corpusの難読化バージョンをキュレートし、クラス名、メソッド名などのコード名識別子、印刷文やコメントブロックなどの文字列リテラルを、制御フロー、継承、ロジックを保存しながら置き換える。
これらの訓練されたDPDAtt分類器は表面の構文的特徴に大きく依存していることが判明した。
この作業は、ソースコードのより深い意味をキャプチャできる、より堅牢な検出ツールの必要性を強調している。
提案するObfuscated corpus(34のJavaソースファイルを含む)は,その真の意味的一般化機能に基づいて,最先端の設計パターン検出器を評価するための再利用可能な概念実証ベンチマークである。
関連論文リスト
- PADBen: A Comprehensive Benchmark for Evaluating AI Text Detectors Against Paraphrase Attacks [2.540711742769252]
そこで本研究では,AIGT識別のために設計された検出システムに対して,繰り返しパラメタしたテキストが回避される理由について検討する。
パラフレーズ攻撃シナリオに対する検出ロバスト性を系統的に評価した最初のベンチマークであるPADBenを紹介する。
論文 参考訳(メタデータ) (2025-11-01T05:59:46Z) - When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection [64.23509202768945]
パーソナライズされた設定における検出ロバスト性を評価するための最初のベンチマークであるデータセットを紹介する。
実験により, 個別設定における検出器間の性能差が大きいことが示された。
パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法を提案する。
論文 参考訳(メタデータ) (2025-10-14T13:10:23Z) - When Names Disappear: Revealing What LLMs Actually Understand About Code [7.691597373321699]
大規模言語モデル(LLM)は、コードタスクにおいて強力な結果をもたらすが、どのようにプログラムの意味を導き出すかは、まだ不明である。
形式的な振る舞いを定義する構造的意味論と、意図を伝える人間の解釈可能な命名という2つのチャンネルを通じてコードがコミュニケーションすると主張する。
命名チャンネルの削除は、モデルが行ごとの記述に回帰する、要約のような意図レベルのタスクを著しく低下させる。
論文 参考訳(メタデータ) (2025-10-03T16:53:13Z) - Command-line Obfuscation Detection using Small Language Models [0.7373617024876725]
敵はしばしば検出を避けるためにコマンドライン難読化を使用する。
我々は、カスタムトレーニングされた小さなトランスフォーマー言語モデルを活用する、スケーラブルなNLPベースの検出手法を実装した。
確立したマルウェアのシグネチャに対するモデルの優位性を示すとともに,本モデルが検出した未確認の難読化サンプルを示す。
論文 参考訳(メタデータ) (2024-08-05T17:01:33Z) - EditSum: A Retrieve-and-Edit Framework for Source Code Summarization [46.84628094508991]
既存の研究によると、コード要約は開発者がソースコードを理解し維持するのに役立ちます。
コード要約は、ソースコードのための自然言語記述を自動的に生成することを目的としている。
本稿では,コード要約のための新しい検索・編集手法であるEditSumを提案する。
論文 参考訳(メタデータ) (2023-08-26T05:48:57Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。