論文の概要: Content-Based Textual File Type Detection at Scale
- arxiv url: http://arxiv.org/abs/2101.08508v1
- Date: Thu, 21 Jan 2021 09:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:48:56.022933
- Title: Content-Based Textual File Type Detection at Scale
- Title(参考訳): 大規模コンテンツに基づくテキストファイル型検出
- Authors: Francesca Del Bonifro, Maurizio Gabbrielli, Stefano Zacchiroli
- Abstract要約: プログラミング言語の検出は、大規模なソースコードの分析において一般的なニーズです。
我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programming language detection is a common need in the analysis of large
source code bases. It is supported by a number of existing tools that rely on
several features, and most notably file extensions, to determine file types. We
consider the problem of accurately detecting the type of files commonly found
in software code bases, based solely on textual file content. Doing so is
helpful to classify source code that lack file extensions (e.g., code snippets
posted on the Web or executable scripts), to avoid misclassifying source code
that has been recorded with wrong or uncommon file extensions, and also shed
some light on the intrinsic recognizability of source code files. We propose a
simple model that (a) use a language-agnostic word tokenizer for textual files,
(b) group tokens in 1-/2-grams, (c) build feature vectors based on N-gram
frequencies, and (d) use a simple fully connected neural network as classifier.
As training set we use textual files extracted from GitHub repositories with at
least 1000 stars, using existing file extensions as ground truth. Despite its
simplicity the proposed model reaches 85% in our experiments for a relatively
high number of recognized classes (more than 130 file types).
- Abstract(参考訳): プログラミング言語検出は、大規模なソースコードの解析において一般的なニーズである。
ファイルタイプを決定するために、いくつかの機能、特にファイル拡張に依存する既存のツールによってサポートされている。
我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。
そのためには、ファイル拡張を欠いたソースコード(例えば、Webに投稿されたコードスニペットや実行可能スクリプト)を分類し、間違ったファイル拡張や珍しいファイル拡張で記録されたソースコードの誤分類を避けるとともに、ソースコードファイルの本質的な認識性にも光を当てる。
本稿では, (a) テキストファイルに言語に依存しない単語トークン化器, (b) 1-/2-gram のグループトークン, (c) n-gram周波数に基づく特徴ベクトルの構築, (d) 単純な完全接続型ニューラルネットワークを分類器として使用する簡易モデルを提案する。
トレーニングセットとしては、既存のファイル拡張を根拠として、少なくとも1000の星を持つgithubリポジトリから抽出されたテキストファイルを使用する。
その単純さにもかかわらず、提案されたモデルは比較的多くの認識されたクラス(130以上のファイルタイプ)に対する実験で85%に達する。
関連論文リスト
- FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Revisiting File Context for Source Code Summarization [2.85386288555414]
典型的なユースケースは、APIドキュメントで使用するサブルーチンの短い要約を生成することだ。
コード要約に関する現在の研究の核心はエンコーダ・デコーダ・ニューラルアーキテクチャである。
本稿では,コード要約における「ファイルコンテキスト」の考え方を再考する。
論文 参考訳(メタデータ) (2023-09-05T15:44:46Z) - Adversarial Networks and Machine Learning for File Classification [0.0]
検査中のファイルの種類を正しく特定することは、法医学的な調査の重要な部分である。
本稿では、逆学習された機械学習ニューラルネットワークを用いてファイルの真の型を決定することを提案する。
半教師付き生成敵ネットワーク(SGAN)は,11種類のファイルの分類において97.6%の精度を達成した。
論文 参考訳(メタデータ) (2023-01-27T19:40:03Z) - CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file
Context [82.88371379927112]
予め訓練されたコード LM 上で,ファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークを提案する。
CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。
論文 参考訳(メタデータ) (2022-12-20T05:48:09Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Toward the Detection of Polyglot Files [2.7402733069180996]
複数のファイルフォーマットで有効なファイルを作成することで、標準化されたファイルフォーマットを悪用することができる。
結果として生成されるポリグロット(多言語)ファイルは、ファイルフォーマットの識別を混乱させ、ファイルの要素が解析を回避できる。
これは、特徴抽出のためにファイルフォーマットの識別に依存するマルウェア検出システムにおいて特に問題となる。
論文 参考訳(メタデータ) (2022-03-14T23:48:22Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes [55.32790803903619]
本稿では,クラスだけでなくインスタンスの低次元バイナリコード(LLC)を学習するための新しい手法を提案する。
アノテーション付き属性やラベルメタデータなど,副作用は一切不要です。
学習したコードは、クラスに対して直感的な分類法を発見することによって、データの中で本質的に重要な特徴をキャプチャすることを示した。
論文 参考訳(メタデータ) (2021-06-02T21:57:52Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。