論文の概要: Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research
- arxiv url: http://arxiv.org/abs/2404.11977v3
- Date: Sun, 1 Sep 2024 10:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:50:14.572838
- Title: Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research
- Title(参考訳): Mens Sana in Corpore Sano: 脆弱性研究のためのサウンドファームウェアコーポラ
- Authors: René Helmke, Elmar Padilla, Nils Aschenbruck,
- Abstract要約: 本稿では,問題空間を解析し,その研究への影響について検討する。
我々は、コーパスの複製性や代表性を育成するのに役立つガイドラインを導出する。
我々はガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。
- 参考スコア(独自算出の注目度): 1.1101390076342181
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Firmware corpora for vulnerability research should be scientifically sound. Yet, several practical challenges complicate the creation of sound corpora: Sample acquisition, e.g., is hard and one must overcome the barrier of proprietary or encrypted data. As image contents are unknown prior analysis, it is hard to select high-quality samples that can satisfy scientific demands. Ideally, we help each other out by sharing data. But here, sharing is problematic due to copyright laws. Instead, papers must carefully document each step of corpus creation: If a step is unclear, replicability is jeopardized. This has cascading effects on result verifiability, representativeness, and, thus, soundness. Despite all challenges, how can we maintain the soundness of firmware corpora? This paper thoroughly analyzes the problem space and investigates its impact on research: We distill practical binary analysis challenges that significantly influence corpus creation. We use these insights to derive guidelines that help researchers to nurture corpus replicability and representativeness. We apply them to 44 top tier papers and systematically analyze scientific corpus creation practices. Our comprehensive analysis confirms that there is currently no common ground in related work. It shows the added value of our guidelines, as they discover methodical issues in corpus creation and unveil miniscule step stones in documentation. These blur visions on representativeness, hinder replicability, and, thus, negatively impact the soundness of otherwise excellent work. Finally, we show the feasibility of our guidelines and build a new, replicable corpus for large-scale analyses on Linux firmware: LFwC. We share rich meta data for good (and proven) replicability. We verify unpacking, deduplicate, identify contents, provide ground truth, and show LFwC's utility for research.
- Abstract(参考訳): 脆弱性研究のためのファームウェアコーパスは科学的に健全であるべきだ。
サンプル取得(例えば、サンプル取得)は困難であり、プロプライエタリなデータや暗号化されたデータの障壁を克服しなければならない。
画像の内容は事前に分かっていないため、科学的要求を満たす高品質なサンプルを選択することは困難である。
理想的には、データを共有することで互いに助け合っています。
しかしここでは、著作権法のために共有が問題となる。
代わりに、文書はコーパス生成の各ステップを慎重に文書化する必要がある。
これは、結果の妥当性、代表性、そして音性にカスケード効果をもたらす。
あらゆる課題にもかかわらず、ファームウェアコーパスの健全性をどのように維持できるか?
本稿では,問題空間を徹底的に分析し,その研究への影響について考察する。
これらの知見を用いて、研究者がコーパスの複製性と代表性を育むのに役立つガイドラインを導出する。
44階層の論文に適用し、科学的コーパス作成の実践を体系的に分析する。
本研究の総合的な分析から,現在,研究に共通する根拠は存在しないことが確認された。
コーパス作成の方法論的な問題を発見し、ドキュメントに最小のステップストーンを公開することによって、私たちのガイドラインの付加価値が示されます。
これらの曖昧なビジョンは代表性に影響を与え、複製性を阻害し、したがって、他の場合は優れた作品の音質に悪影響を及ぼす。
最後に、我々のガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。
私たちは、優れた(そして証明された)複製性のために、リッチなメタデータを共有します。
我々は, アンパックの検証, 復号化, 内容の特定, 根拠的真理の提示, LFwCの実用性を示す。
関連論文リスト
- Corpus-informed Retrieval Augmented Generation of Clarifying Questions [23.123116796159717]
本研究では,Web検索のための質問を明確化するコーパスを生成するモデルを開発することを目的とする。
現在のデータセットでは、探索意図は主にコーパスによって支持されており、トレーニングと評価の両方に問題がある。
本稿では,検索コーパスと基礎的真理を整合させるデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T09:20:42Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise [14.38859858538404]
検索された文書セットでは、「関連」文書でさえ誤った情報や誤った情報を含むことがある。
我々の研究は、"関連"文書でさえ誤った情報や誤った情報を含む、より困難なシナリオを調査します。
本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T16:28:10Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。