論文の概要: Corpus Christi: Establishing Replicability when Sharing the Bread is Not Allowed
- arxiv url: http://arxiv.org/abs/2404.11977v1
- Date: Thu, 18 Apr 2024 08:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:01:02.026754
- Title: Corpus Christi: Establishing Replicability when Sharing the Bread is Not Allowed
- Title(参考訳): Corpus Christi氏: ブレッドの共有が許されていないときのリプリケータビリティを確立する
- Authors: René Helmke, Elmar Padilla, Nils Aschenbruck,
- Abstract要約: コーパス生成に大きな影響を及ぼすバイナリ分析の課題を特定する。
私たちは、複製性と代表性という科学的目標を育むための重要なコーパス要件の枠組みを導き出すためにそれらを使用します。
このフレームワークを44階層の論文に適用し,704個のデータポイントを収集し,現在コーパス作成の共通基盤がないことを示す。
- 参考スコア(独自算出の注目度): 1.1101390076342181
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we provide practical tools to improve the scientific soundness of firmware corpora beyond the state of the art. We identify binary analysis challenges that significantly impact corpus creation. We use them to derive a framework of key corpus requirements that nurture the scientific goals of replicability and representativeness. We apply the framework to 44 top tier papers and collect 704 data points to show that there is currently no common ground on corpus creation. We discover in otherwise excellent work, that incomplete documentation and inflated corpus sizes blur visions on representativeness and hinder replicability. Our results show that the strict framework provides useful and practical guidelines that can identify miniscule step stones in corpus creation with significant impact on soundness. Finally, we show that it is possible to meet all requirements: We provide a new corpus called LFwC. It is designed for large-scale static analyses on Linux-based firmware and consists of 10,913 high-quality images, covering 2,365 network appliances. We share rich meta data and scripts for replicability with the community. We verify unpacking, perform deduplication, identify contents, and provide bug ground truth. We identify ISAs and Linux kernels. All samples can be unpacked with the open source tool FACT.
- Abstract(参考訳): 本稿では,最先端以上のファームウェアコーパスの科学的健全性を向上させるための実践的ツールを提供する。
コーパス生成に大きな影響を及ぼすバイナリ分析の課題を特定する。
私たちは、複製性と代表性という科学的目標を育むための重要なコーパス要件の枠組みを導き出すためにそれらを使用します。
このフレームワークを44階層の論文に適用し,704個のデータポイントを収集し,現在コーパス作成の共通基盤がないことを示す。
不完全なドキュメントと膨らませたコーパスサイズは、代表性や複製性を曖昧にします。
この厳密な枠組みは,音質に大きな影響を与えるコーパス生成における微小なステップストーンを識別するための,有用かつ実用的なガイドラインを提供する。
最後に, LFwCという新しいコーパスを提供する。
Linuxベースのファームウェアの大規模静的解析のために設計されており、2,365のネットワークアプライアンスをカバーする10,913の高品質なイメージで構成されている。
私たちは、リッチなメタデータと、複製可能なスクリプトをコミュニティと共有しています。
我々は、アンパックを検証し、重複を解消し、内容を識別し、バグ基盤の真実を提供する。
ISAとLinuxカーネルを識別する。
すべてのサンプルはオープンソースツールのFACTでアンパックできる。
関連論文リスト
- Corpus-informed Retrieval Augmented Generation of Clarifying Questions [23.123116796159717]
本研究では,Web検索のための質問を明確化するコーパスを生成するモデルを開発することを目的とする。
現在のデータセットでは、探索意図は主にコーパスによって支持されており、トレーニングと評価の両方に問題がある。
本稿では,検索コーパスと基礎的真理を整合させるデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T09:20:42Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise [14.38859858538404]
検索された文書セットでは、「関連」文書でさえ誤った情報や誤った情報を含むことがある。
我々の研究は、"関連"文書でさえ誤った情報や誤った情報を含む、より困難なシナリオを調査します。
本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T16:28:10Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。