論文の概要: Revisiting Code Debloating with Ground Truth-based Evaluation
- arxiv url: http://arxiv.org/abs/2604.17717v2
- Date: Tue, 21 Apr 2026 17:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.926415
- Title: Revisiting Code Debloating with Ground Truth-based Evaluation
- Title(参考訳): 地中真理に基づく評価によるコードのデブロ化の再検討
- Authors: Muhammad Bilal, Moiz Ali, Mohit Kumar, Fareed Zaffar, Fahad Shaon, Ashish Gehani, Sazzadur Rahaman,
- Abstract要約: プログラムデブロは、パフォーマンスオーバーヘッド、アタックサーフェス、メンテナンスコストを削減するために、未使用のコードを削除することを目的としている。
その中心的な役割にもかかわらず、アプリケーションレベルのデブロは、パフォーマンスを測定するために不完全なプロキシに依存し続けている。
我々は,地道な評価パラダイムを通じて,アプリケーションレベルのデブロ化の基礎を再考する。
- 参考スコア(独自算出の注目度): 5.955975465516521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Program debloating aims to remove unused code to reduce performance overhead, attack surfaces, and maintenance costs. Over time, debloating has evolved across multiple layers (container, library, and application), each building on the principles of application-level debloating. Despite its central role, application-level debloating continues to rely on imperfect proxies for measuring performance, such as test-case-driven evaluation for correctness, code size for runtime efficiency, and gadget count reduction for estimating security posture. While there is widespread skepticism about using such imperfect proxies, the community still lacks standardized methodologies or benchmarks to assess the true performance of application-level software debloating. This experience paper aims to address the gap. We revisit the foundations of application-level debloating through a ground-truth-based evaluation paradigm. Our analysis of eight state-of-the-art debloaters - Blade, Chisel, Cov, CovA, Lmcas, Trimmer, Occam, and Razor - uncovers insights previously unattainable through traditional evaluations. These tools collectively span the spectrum of source-to-source, IR-to-IR, and binary-to-binary transformation paradigms, characterizing a holistic reassessment across abstraction levels. Our analysis reveals that while dynamic analysis-based tools often remove up to 94% of code that should be retained, static analysis-based approaches exhibit the opposite behavior, showing high false retention rates due to coarse-grained dependency over-approximation. Additionally, static analyses may add code by introducing specialized variants of functions. False retentions and removals not only cause functional incorrectness but may also lead to systematic inconsistency, robustness failures, and exploitable vulnerabilities.
- Abstract(参考訳): プログラムデブロは、パフォーマンスオーバーヘッド、アタックサーフェス、メンテナンスコストを削減するために、未使用のコードを削除することを目的としている。
時間の経過とともに、デブロは複数のレイヤ(コンテナ、ライブラリ、アプリケーション)にわたって進化し、それぞれがアプリケーションレベルのデブロの原則に基づいて構築されている。
その中心的な役割にもかかわらず、アプリケーションレベルのデ肥大化は、テストケース駆動による正確性の評価、実行時のコードサイズ、セキュリティ姿勢を推定するためのガジェット数削減など、パフォーマンス測定のための不完全なプロキシに依存し続けている。
このような不完全なプロキシの使用には懐疑論が広まっていますが、アプリケーションレベルのソフトウェアデ肥大化の真のパフォーマンスを評価するための標準化された方法論やベンチマークはいまだに欠如しています。
この経験論文はそのギャップに対処することを目的としている。
我々は,地道な評価パラダイムを通じて,アプリケーションレベルのデブロ化の基礎を再考する。
私たちの分析では、Blade、Chisel、Cov、CovA、Lmcas、Trimmer、Occam、Razorの8つの最先端のデブロアが、従来の評価では達成不可能な洞察を明らかにしています。
これらのツールは、ソース・ツー・ソース、IR-to-IR、バイナリ・ツー・バイナリ・トランスフォーメーションのパラダイムのスペクトルを網羅し、抽象レベルでの全体的再評価を特徴付ける。
我々の分析では、動的解析ベースのツールは保持すべきコードの最大94%を除去することが多いが、静的解析ベースのアプローチでは逆の振る舞いを示し、粗い依存性の過剰な近似による偽保持率が高い。
さらに静的解析は、関数の特別な変種を導入することで、コードを追加することができる。
不正な保持と削除は機能的不正を引き起こすだけでなく、体系的不整合、堅牢性障害、悪用可能な脆弱性を引き起こす可能性がある。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - The Semantic Trap: Do Fine-tuned LLMs Learn Vulnerability Root Cause or Just Functional Pattern? [14.472036099680961]
そこで我々は,脆弱性根本原因を機能パターンから切り離すための総合評価フレームワークTrapEvalを提案する。
我々は、3つのモデルファミリーにまたがる5つの最先端LCMを微調整し、それらを、CodeBLEUによって測定されたクロスデータセットテスト、セマンティック保存、および様々なセマンティックギャップの下で評価する。
従来のデータセットに対する高いベンチマークスコアは、モデルが脆弱性の真の因果論理を理解できないことを隠蔽している可能性がある。
論文 参考訳(メタデータ) (2026-01-30T07:19:17Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。
LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。
LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文 参考訳(メタデータ) (2025-04-16T02:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。