Fugu-MT 論文翻訳(概要): Shell Language Processing: Unix command parsing for Machine Learning

論文の概要: Shell Language Processing: Unix command parsing for Machine Learning

arxiv url: http://arxiv.org/abs/2107.02438v1
Date: Tue, 6 Jul 2021 07:34:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-07 23:16:44.000037
Title: Shell Language Processing: Unix command parsing for Machine Learning
Title（参考訳）: シェル言語処理: 機械学習のためのunixコマンド解析
Authors: Dmitrijs Trizna
Abstract要約: Shell Language Preprocessing (SLP)ライブラリは、UnixおよびLinuxシェルコマンドのパースに向け、トークン化とエンコーディングを実装している。従来の自然言語処理(NLP)パイプラインが故障した場合の具体的な例で,新しいアプローチの必要性の背景にある理論的根拠を述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this article, we present a Shell Language Preprocessing (SLP) library, which implements tokenization and encoding directed on the parsing of Unix and Linux shell commands. We describe the rationale behind the need for a new approach with specific examples when conventional Natural Language Processing (NLP) pipelines fail. Furthermore, we evaluate our methodology on a security classification task against widely accepted information and communications technology (ICT) tokenization techniques and achieve significant improvement of an F1-score from 0.392 to 0.874.
Abstract（参考訳）: 本稿では,unix と linux のシェルコマンドの構文解析を指向したトークン化とエンコーディングを実装した shell language preprocessing (slp) ライブラリを提案する。従来の自然言語処理(NLP)パイプラインが故障した場合の具体的な例で,新しいアプローチの必要性の根拠を説明する。さらに、広く受け入れられている情報通信技術(ICT)のトークン化技術に対するセキュリティ分類タスクの評価を行い、0.392から0.874までのF1スコアを大幅に改善した。

関連論文リスト

Instantiating Standards: Enabling Standard-Driven Text TTP Extraction with Evolvable Memory [4.909107168534244]
抽象的な標準定義を実行可能な文脈化された知識に変換する新しいフレームワークを導入する。本手法では,Large Language Model (LLM) を用いて知識の生成,更新,適用を行う。実験の結果,GPT-4oを11%上回るテクニックF1スコアが得られた。
論文参考訳（メタデータ） (2025-05-14T10:22:13Z)
Conditioning LLMs to Generate Code-Switched Text: A Methodology Grounded in Naturally Occurring Data [21.240439045909724]
コードスイッチング(CS)は、自然言語処理(NLP)において依然として重要な課題である。本稿では,大規模言語モデル(LLM)を用いたCSデータ生成手法を提案する。そこで本研究では,自然なCS文をモノリンガル・イングリッシュに逆翻訳し,並列コーパスを用いて微調整し,モノリンガル・センテンスをCSに変換する手法を提案する。
論文参考訳（メタデータ） (2025-02-18T15:04:13Z)
Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文参考訳（メタデータ） (2025-02-12T07:37:39Z)
NLP4PBM: A Systematic Review on Process Extraction using Natural Language Processing with Rule-based, Machine and Deep Learning Methods [0.0]
本稿では,自然言語処理(NLP)を用いたテキスト記述の構造化プロセスへの変換という,自動プロセス抽出の分野を概観する。機械学習 (ML) / ディープラーニング (DL) メソッドが NLP コンポーネントにますます利用されていることが分かりました。いくつかのケースでは、プロセス抽出に対する適合性から選択され、その結果、古典的なルールベースの手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-09-10T15:16:02Z)
Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-08-05T09:37:21Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Can We Generate Shellcodes via Natural Language? An Empirical Study [4.82810058837951]
本稿では,ニューラルネットワークを用いたシェルコードの自動生成手法を提案する。 Shellcode_IA32は、実際のLinux/x86シェルコードの3,200のアセンブリコードスニペットで構成されている。我々は,NMTが自然言語からアセンブリコードスニペットを高い精度で生成できることを示し,多くの場合,誤りのないシェルコード全体を生成可能であることを示した。
論文参考訳（メタデータ） (2022-02-08T09:57:34Z)
Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文参考訳（メタデータ） (2022-01-26T22:57:44Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)
Probing the Natural Language Inference Task with Automated Reasoning Tools [6.445605125467574]
自然言語推論(NLI)タスクは、現在のNLPにおいて重要なタスクである。我々はNLIタスクの論理構造を調べるために他の手法を用いる。我々は、機械指向の自然言語がNLI文のパースにどの程度うまく利用できるか、また、自動定理証明器が結果の式に対していかにうまく推論できるかを示す。
論文参考訳（メタデータ） (2020-05-06T03:18:11Z)
An Efficient Architecture for Predicting the Case of Characters using Sequence Models [0.0]
クリーンなテキストデータのデジェストは、いくつかの自然言語処理アプリケーションにおいてボトルネックとして機能することが多い。本稿では,一般にTruecasingと呼ばれる文字の正しいケースを復元することで,この問題を解決する。提案アーキテクチャは、畳み込みニューラルネットワーク(CNN)、双方向長短期記憶ネットワーク(LSTM)、条件付きランダムフィールド(CRF)の組み合わせを用いている。
論文参考訳（メタデータ） (2020-01-30T06:54:39Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。