論文の概要: Corpus Christi: Establishing Replicability when Sharing the Bread is Not Allowed
- arxiv url: http://arxiv.org/abs/2404.11977v1
- Date: Thu, 18 Apr 2024 08:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:01:02.026754
- Title: Corpus Christi: Establishing Replicability when Sharing the Bread is Not Allowed
- Title(参考訳): Corpus Christi氏: ブレッドの共有が許されていないときのリプリケータビリティを確立する
- Authors: René Helmke, Elmar Padilla, Nils Aschenbruck,
- Abstract要約: コーパス生成に大きな影響を及ぼすバイナリ分析の課題を特定する。
私たちは、複製性と代表性という科学的目標を育むための重要なコーパス要件の枠組みを導き出すためにそれらを使用します。
このフレームワークを44階層の論文に適用し,704個のデータポイントを収集し,現在コーパス作成の共通基盤がないことを示す。
- 参考スコア(独自算出の注目度): 1.1101390076342181
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we provide practical tools to improve the scientific soundness of firmware corpora beyond the state of the art. We identify binary analysis challenges that significantly impact corpus creation. We use them to derive a framework of key corpus requirements that nurture the scientific goals of replicability and representativeness. We apply the framework to 44 top tier papers and collect 704 data points to show that there is currently no common ground on corpus creation. We discover in otherwise excellent work, that incomplete documentation and inflated corpus sizes blur visions on representativeness and hinder replicability. Our results show that the strict framework provides useful and practical guidelines that can identify miniscule step stones in corpus creation with significant impact on soundness. Finally, we show that it is possible to meet all requirements: We provide a new corpus called LFwC. It is designed for large-scale static analyses on Linux-based firmware and consists of 10,913 high-quality images, covering 2,365 network appliances. We share rich meta data and scripts for replicability with the community. We verify unpacking, perform deduplication, identify contents, and provide bug ground truth. We identify ISAs and Linux kernels. All samples can be unpacked with the open source tool FACT.
- Abstract(参考訳): 本稿では,最先端以上のファームウェアコーパスの科学的健全性を向上させるための実践的ツールを提供する。
コーパス生成に大きな影響を及ぼすバイナリ分析の課題を特定する。
私たちは、複製性と代表性という科学的目標を育むための重要なコーパス要件の枠組みを導き出すためにそれらを使用します。
このフレームワークを44階層の論文に適用し,704個のデータポイントを収集し,現在コーパス作成の共通基盤がないことを示す。
不完全なドキュメントと膨らませたコーパスサイズは、代表性や複製性を曖昧にします。
この厳密な枠組みは,音質に大きな影響を与えるコーパス生成における微小なステップストーンを識別するための,有用かつ実用的なガイドラインを提供する。
最後に, LFwCという新しいコーパスを提供する。
Linuxベースのファームウェアの大規模静的解析のために設計されており、2,365のネットワークアプライアンスをカバーする10,913の高品質なイメージで構成されている。
私たちは、リッチなメタデータと、複製可能なスクリプトをコミュニティと共有しています。
我々は、アンパックを検証し、重複を解消し、内容を識別し、バグ基盤の真実を提供する。
ISAとLinuxカーネルを識別する。
すべてのサンプルはオープンソースツールのFACTでアンパックできる。
関連論文リスト
- CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文 参考訳(メタデータ) (2024-02-26T17:35:44Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Noise-Robust De-Duplication at Scale [4.499833362998488]
この研究は、歴史的ニュースワイヤーのユニークなタイムラインを使って27,210の文書データセットを作成する。
ハッシュやN-gramオーバーラップなど,さまざまな非重複手法を開発し,評価する。
バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。
論文 参考訳(メタデータ) (2022-10-09T13:30:42Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。