論文の概要: Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research
- arxiv url: http://arxiv.org/abs/2404.11977v3
- Date: Sun, 1 Sep 2024 10:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:50:14.572838
- Title: Mens Sana In Corpore Sano: Sound Firmware Corpora for Vulnerability Research
- Title(参考訳): Mens Sana in Corpore Sano: 脆弱性研究のためのサウンドファームウェアコーポラ
- Authors: René Helmke, Elmar Padilla, Nils Aschenbruck,
- Abstract要約: 本稿では,問題空間を解析し,その研究への影響について検討する。
我々は、コーパスの複製性や代表性を育成するのに役立つガイドラインを導出する。
我々はガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。
- 参考スコア(独自算出の注目度): 1.1101390076342181
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Firmware corpora for vulnerability research should be scientifically sound. Yet, several practical challenges complicate the creation of sound corpora: Sample acquisition, e.g., is hard and one must overcome the barrier of proprietary or encrypted data. As image contents are unknown prior analysis, it is hard to select high-quality samples that can satisfy scientific demands. Ideally, we help each other out by sharing data. But here, sharing is problematic due to copyright laws. Instead, papers must carefully document each step of corpus creation: If a step is unclear, replicability is jeopardized. This has cascading effects on result verifiability, representativeness, and, thus, soundness. Despite all challenges, how can we maintain the soundness of firmware corpora? This paper thoroughly analyzes the problem space and investigates its impact on research: We distill practical binary analysis challenges that significantly influence corpus creation. We use these insights to derive guidelines that help researchers to nurture corpus replicability and representativeness. We apply them to 44 top tier papers and systematically analyze scientific corpus creation practices. Our comprehensive analysis confirms that there is currently no common ground in related work. It shows the added value of our guidelines, as they discover methodical issues in corpus creation and unveil miniscule step stones in documentation. These blur visions on representativeness, hinder replicability, and, thus, negatively impact the soundness of otherwise excellent work. Finally, we show the feasibility of our guidelines and build a new, replicable corpus for large-scale analyses on Linux firmware: LFwC. We share rich meta data for good (and proven) replicability. We verify unpacking, deduplicate, identify contents, provide ground truth, and show LFwC's utility for research.
- Abstract(参考訳): 脆弱性研究のためのファームウェアコーパスは科学的に健全であるべきだ。
サンプル取得(例えば、サンプル取得)は困難であり、プロプライエタリなデータや暗号化されたデータの障壁を克服しなければならない。
画像の内容は事前に分かっていないため、科学的要求を満たす高品質なサンプルを選択することは困難である。
理想的には、データを共有することで互いに助け合っています。
しかしここでは、著作権法のために共有が問題となる。
代わりに、文書はコーパス生成の各ステップを慎重に文書化する必要がある。
これは、結果の妥当性、代表性、そして音性にカスケード効果をもたらす。
あらゆる課題にもかかわらず、ファームウェアコーパスの健全性をどのように維持できるか?
本稿では,問題空間を徹底的に分析し,その研究への影響について考察する。
これらの知見を用いて、研究者がコーパスの複製性と代表性を育むのに役立つガイドラインを導出する。
44階層の論文に適用し、科学的コーパス作成の実践を体系的に分析する。
本研究の総合的な分析から,現在,研究に共通する根拠は存在しないことが確認された。
コーパス作成の方法論的な問題を発見し、ドキュメントに最小のステップストーンを公開することによって、私たちのガイドラインの付加価値が示されます。
これらの曖昧なビジョンは代表性に影響を与え、複製性を阻害し、したがって、他の場合は優れた作品の音質に悪影響を及ぼす。
最後に、我々のガイドラインの実現可能性を示し、Linuxファームウェアの大規模解析のための新しいレプリカブルコーパスLFwCを構築した。
私たちは、優れた(そして証明された)複製性のために、リッチなメタデータを共有します。
我々は, アンパックの検証, 復号化, 内容の特定, 根拠的真理の提示, LFwCの実用性を示す。
関連論文リスト
- CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文 参考訳(メタデータ) (2024-02-26T17:35:44Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Noise-Robust De-Duplication at Scale [4.499833362998488]
この研究は、歴史的ニュースワイヤーのユニークなタイムラインを使って27,210の文書データセットを作成する。
ハッシュやN-gramオーバーラップなど,さまざまな非重複手法を開発し,評価する。
バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。
論文 参考訳(メタデータ) (2022-10-09T13:30:42Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。