Fugu-MT 論文翻訳(概要): SoK: A Broad Comparative Evaluation of Software Debloating Tools

論文の概要: SoK: A Broad Comparative Evaluation of Software Debloating Tools

arxiv url: http://arxiv.org/abs/2312.13274v1
Date: Wed, 20 Dec 2023 18:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 14:30:33.335056
Title: SoK: A Broad Comparative Evaluation of Software Debloating Tools
Title（参考訳）: sok: ソフトウェア破壊ツールの広範な比較評価
Authors: Michael D. Brown, Adam Meily, Brian Fairservice, Akshay Sood, Jonathan Dorn, Eric Kilmer, Ronald Eytchison
Abstract要約: ソフトウェアデ肥大化ツールは、bloatと呼ばれる不要なコードを削除することで、プログラムのセキュリティとパフォーマンスを改善しようとしている。筆者らは,10年間のデブロ化文学と,現在商業開発中のいくつかのツールを調査し,デブロ化生態系の知識を体系化した。評価は、20のベンチマークプログラム、16のパフォーマンス、セキュリティ、正確性、ユーザビリティの計測ツールを多種多様なベンチマークプログラムで実施した。
参考スコア（独自算出の注目度）: 3.2463701388638597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software debloating tools seek to improve the program security and performance by removing unnecessary code, called bloat. While many techniques have been proposed, several barriers to their adoption have emerged. Namely, debloating tools are highly specialized, making it difficult for adopters to find the right type of tool for their needs. This is further hindered by a lack of established metrics and comparative evaluations between tools. To close this gap, we surveyed of 10 years of debloating literature and several tools currently under commercial development to systematize the debloating ecosystem's knowledge. We then conducted a broad comparative evaluation of 10 debloating tools to determine their relative strengths and weaknesses. Our evaluation, conducted on a diverse set of 20 benchmark programs, measures tools across 16 performance, security, correctness, and usability metrics. Our evaluation surfaces several concerning findings that contradict the prevailing narrative in debloating literature. First, debloating tools lack the required maturity to be used on real-world software, evidenced by a slim 21% overall success rate for creating passable debloated versions of medium- and high-complexity benchmarks. Second, debloating tools struggle to produce sound and robust programs. Using our novel differential fuzzing tool, DIFFER, we discovered that only 13% of our debloating attempts produced a sound and robust debloated program. Finally, our results indicate that debloating tools typically do not improve the performance or security posture of debloated programs by a significant degree. We believe that our contributions in this paper will help potential adopters better understand the landscape of tools and will motivate future research and development of more capable debloating tools. To this end, we have made our benchmark set, data, and custom tools publicly available.
Abstract（参考訳）: ソフトウェア破壊ツールは、bloatと呼ばれる不要なコードを削除することで、プログラムのセキュリティとパフォーマンスを改善することを目指している。多くの技術が提案されているが、採用の障壁がいくつか現れている。つまり、デブローミングツールは高度に専門的で、採用者がニーズに対して適切なタイプのツールを見つけるのが困難である。これは、確立されたメトリクスの欠如とツール間の比較評価によってさらに妨げられている。このギャップを埋めるため,我々は10年間の消泡文学と,消泡する生態系の知識を体系化する商業開発ツールについて調査を行った。次に, 相対的強度と弱さを判定するために, 10個の脱血ツールの広域比較評価を行った。評価は,20のベンチマークプログラム,16のパフォーマンス,セキュリティ,正当性,ユーザビリティの指標を対象とした。本評価では, 先行する文学の物語と矛盾するいくつかの知見について検討した。まず、デブロートツールには、実世界のソフトウェアで使用するために必要な成熟度が欠如している。中・高複雑さベンチマークのパス可能なデブロートバージョンを作成する上で、全体の成功率は21%である。第二に、爆発するツールは、健全で堅牢なプログラムを作るのに苦労している。新たな差分ファジングツールによって異なるのは,私たちの爆発的試みのわずか13%が,健全でロバストな爆発的プログラムを生み出していることだ。以上の結果から,退化したプログラムの性能やセキュリティの姿勢が改善されないことが判明した。この論文における私たちのコントリビューションは、潜在的な採用者がツールの展望をよりよく理解し、より有能なデブロ化ツールの将来の研究と開発を動機付けるだろうと考えています。この目的のために、ベンチマークセット、データ、カスタムツールを公開しました。

関連論文リスト

Use as Directed? A Comparison of Software Tools Intended to Check Rigor and Transparency of Published Work [28.252424517077557]
科学的報告における標準化と透明性の欠如が大きな問題である。さまざまな厳格な基準をチェックするように設計された自動化ツールがいくつかある。われわれはScreenITグループと異なる9つの厳格な基準に対して,11の自動化ツールを広範囲に比較した。
論文参考訳（メタデータ） (2025-07-23T23:49:28Z)
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
Vexed by VEX tools: Consistency evaluation of container vulnerability scanners [0.0]
本稿では,コンテナに適用された最先端の脆弱性スキャンツールについて検討する。 Vulnerability Exploitability eXchange (VEX) フォーマットに従うツールの開発に注力しています。
論文参考訳（メタデータ） (2025-03-18T16:22:43Z)
Does the Tool Matter? Exploring Some Causes of Threats to Validity in Mining Software Repositories [9.539825294372786]
10の大規模なソフトウェアプロジェクトを抽出し分析するために、2つのツールを使用します。同様の傾向にもかかわらず、コミット数や開発者の数のような単純なメトリクスでさえ、最大500%の違いがある。このような大きな違いは、しばしば小さな技術的な詳細によって引き起こされる。
論文参考訳（メタデータ） (2025-01-25T07:42:56Z)
The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文参考訳（メタデータ） (2024-09-10T10:12:37Z)
SoK: Software Debloating Landscape and Future Directions [3.5609179225884353]
マルチレベル分類の基盤となるソフトウェアのデブロ化ワークフローを概念化する。このフレームワークは、インプット/アウトプットアーティファクト、デブレーション戦略、評価基準に従ってデブレーションツールを分類する。
論文参考訳（メタデータ） (2024-07-15T21:52:21Z)
What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。 LMが使用する外部プログラムとしてツールを統一的に定義する。各種ツールの効率を実証的に検討した。
論文参考訳（メタデータ） (2024-03-18T17:20:07Z)
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.88844320554284]
ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文参考訳（メタデータ） (2024-03-12T14:57:40Z)
TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。 ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文参考訳（メタデータ） (2024-02-21T22:41:38Z)
HunFlair2 in a cross-corpus evaluation of biomedical named entity recognition and normalization tools [4.882266258243112]
バイオメディカルテキストマイニングツールを用いた企業名抽出のためのクロスコーパスベンチマークの結果について報告する。以上の結果から,BTM ツールの利用者は,オリジナルの出版物と比較して性能低下を期待すべきであることが示唆された。
論文参考訳（メタデータ） (2024-02-19T18:58:18Z)
AIBugHunter: A Practical Tool for Predicting, Classifying and Repairing Software Vulnerabilities [27.891905729536372]
AIBugHunterは、C/C++言語用のMLベースのソフトウェア脆弱性分析ツールで、Visual Studio Codeに統合されている。本稿では,新たな多目的最適化(MOO)に基づく脆弱性分類手法と,AIBugHunterが脆弱性タイプを正確に識別し,重症度を推定するためのトランスフォーマーに基づく評価手法を提案する。
論文参考訳（メタデータ） (2023-05-26T04:21:53Z)
AI Explainability 360: Impact and Design [120.95633114160688]
2019年、私たちはAI Explainability 360(Arya et al. 2020)を開発しました。本稿では,いくつかのケーススタディ,統計,コミュニティフィードバックを用いて,ツールキットが与える影響について検討する。また,ツールキットのフレキシブルな設計,使用例,利用者が利用可能な教育資料や資料についても述べる。
論文参考訳（メタデータ） (2021-09-24T19:17:09Z)
Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文参考訳（メタデータ） (2021-06-07T23:57:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。