論文の概要: Shell Language Processing: Unix command parsing for Machine Learning
- arxiv url: http://arxiv.org/abs/2107.02438v1
- Date: Tue, 6 Jul 2021 07:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 23:16:44.000037
- Title: Shell Language Processing: Unix command parsing for Machine Learning
- Title(参考訳): シェル言語処理: 機械学習のためのunixコマンド解析
- Authors: Dmitrijs Trizna
- Abstract要約: Shell Language Preprocessing (SLP)ライブラリは、UnixおよびLinuxシェルコマンドのパースに向け、トークン化とエンコーディングを実装している。
従来の自然言語処理(NLP)パイプラインが故障した場合の具体的な例で,新しいアプローチの必要性の背景にある理論的根拠を述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we present a Shell Language Preprocessing (SLP) library,
which implements tokenization and encoding directed on the parsing of Unix and
Linux shell commands. We describe the rationale behind the need for a new
approach with specific examples when conventional Natural Language Processing
(NLP) pipelines fail. Furthermore, we evaluate our methodology on a security
classification task against widely accepted information and communications
technology (ICT) tokenization techniques and achieve significant improvement of
an F1-score from 0.392 to 0.874.
- Abstract(参考訳): 本稿では,unix と linux のシェルコマンドの構文解析を指向したトークン化とエンコーディングを実装した shell language preprocessing (slp) ライブラリを提案する。
従来の自然言語処理(NLP)パイプラインが故障した場合の具体的な例で,新しいアプローチの必要性の根拠を説明する。
さらに、広く受け入れられている情報通信技術(ICT)のトークン化技術に対するセキュリティ分類タスクの評価を行い、0.392から0.874までのF1スコアを大幅に改善した。
関連論文リスト
- NLP4PBM: A Systematic Review on Process Extraction using Natural Language Processing with Rule-based, Machine and Deep Learning Methods [0.0]
本稿では,自然言語処理(NLP)を用いたテキスト記述の構造化プロセスへの変換という,自動プロセス抽出の分野を概観する。
機械学習 (ML) / ディープラーニング (DL) メソッドが NLP コンポーネントにますます利用されていることが分かりました。
いくつかのケースでは、プロセス抽出に対する適合性から選択され、その結果、古典的なルールベースの手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-10T15:16:02Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Can We Generate Shellcodes via Natural Language? An Empirical Study [4.82810058837951]
本稿では,ニューラルネットワークを用いたシェルコードの自動生成手法を提案する。
Shellcode_IA32は、実際のLinux/x86シェルコードの3,200のアセンブリコードスニペットで構成されている。
我々は,NMTが自然言語からアセンブリコードスニペットを高い精度で生成できることを示し,多くの場合,誤りのないシェルコード全体を生成可能であることを示した。
論文 参考訳(メタデータ) (2022-02-08T09:57:34Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Probing the Natural Language Inference Task with Automated Reasoning
Tools [6.445605125467574]
自然言語推論(NLI)タスクは、現在のNLPにおいて重要なタスクである。
我々はNLIタスクの論理構造を調べるために他の手法を用いる。
我々は、機械指向の自然言語がNLI文のパースにどの程度うまく利用できるか、また、自動定理証明器が結果の式に対していかにうまく推論できるかを示す。
論文 参考訳(メタデータ) (2020-05-06T03:18:11Z) - An Efficient Architecture for Predicting the Case of Characters using
Sequence Models [0.0]
クリーンなテキストデータのデジェストは、いくつかの自然言語処理アプリケーションにおいてボトルネックとして機能することが多い。
本稿では,一般にTruecasingと呼ばれる文字の正しいケースを復元することで,この問題を解決する。
提案アーキテクチャは、畳み込みニューラルネットワーク(CNN)、双方向長短期記憶ネットワーク(LSTM)、条件付きランダムフィールド(CRF)の組み合わせを用いている。
論文 参考訳(メタデータ) (2020-01-30T06:54:39Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。