論文の概要: NL2CMD: An Updated Workflow for Natural Language to Bash Commands
Translation
- arxiv url: http://arxiv.org/abs/2302.07845v3
- Date: Sun, 18 Jun 2023 16:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 03:40:05.484439
- Title: NL2CMD: An Updated Workflow for Natural Language to Bash Commands
Translation
- Title(参考訳): nl2cmd: 自然言語からbashコマンドへの変換をアップデートしたワークフロー
- Authors: Quchen Fu, Zhongwei Teng, Marco Georgaklis, Jules White, Douglas C.
Schmidt
- Abstract要約: 本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。
まず、対応する英語テキストからBashコマンドを生成するのに使用される最先端の翻訳モデルについて述べる。
第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating natural language into Bash Commands is an emerging research field
that has gained attention in recent years. Most efforts have focused on
producing more accurate translation models. To the best of our knowledge, only
two datasets are available, with one based on the other. Both datasets involve
scraping through known data sources (through platforms like stack overflow,
crowdsourcing, etc.) and hiring experts to validate and correct either the
English text or Bash Commands. This paper provides two contributions to
research on synthesizing Bash Commands from scratch. First, we describe a
state-of-the-art translation model used to generate Bash Commands from the
corresponding English text. Second, we introduce a new NL2CMD dataset that is
automatically generated, involves minimal human intervention, and is over six
times larger than prior datasets. Since the generation pipeline does not rely
on existing Bash Commands, the distribution and types of commands can be custom
adjusted. We evaluate the performance of ChatGPT on this task and discuss the
potential of using it as a data generator. Our empirical results show how the
scale and diversity of our dataset can offer unique opportunities for semantic
parsing researchers.
- Abstract(参考訳): 自然言語をBash Commandsに翻訳することは近年注目されている研究分野である。
ほとんどの努力はより正確な翻訳モデルの作成に集中している。
私たちの知る限りでは、2つのデータセットしか利用できません。
どちらのデータセットも、既知のデータソース(stack overflowやクラウドソーシングなどを通じて)をスクレイピングし、英語テキストまたはbashコマンドの検証と修正を行う専門家を雇う。
本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。
まず、対応する英文からBashコマンドを生成するための最先端翻訳モデルについて述べる。
第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
生成パイプラインは既存のBashコマンドに依存しないので、分散とコマンドの種類をカスタマイズすることができる。
このタスクにおけるChatGPTの性能を評価し、データジェネレータとして使用する可能性について議論する。
私たちの実験結果は、データセットのスケールと多様性が、セマンティック解析研究者にユニークな機会を提供することを示す。
関連論文リスト
- LLM-Supported Natural Language to Bash Translation [3.944966059637878]
本稿では,コマンド実行とコマンド出力の評価を組み合わせた機能等価性を提案する。
解析,文脈内学習,重み付き学習,制約付き復号化により,NL2SHの精度が最大32%向上することを示した。
論文 参考訳(メタデータ) (2025-02-07T19:35:55Z) - Task Arithmetic for Language Expansion in Speech Translation [41.721843322787045]
我々は,新しい言語ペアと既存のモデルで訓練されたモデルを組み合わせることで,新しい言語ペアを拡張することを提案する。
また,STに対するタスク演算の直接適用により,マージされたモデルが命令に従わないことが判明した。
言語を混乱させないために,追加の言語制御モデルとマージする拡張タスク演算法を提案する。
論文 参考訳(メタデータ) (2024-09-17T15:25:11Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training [19.173992333194683]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。
単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文 参考訳(メタデータ) (2024-01-09T04:19:16Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - An Empirical Study on Few-shot Knowledge Probing for Pretrained Language
Models [54.74525882974022]
1ホップと2ホップの双方において、いくつかの例は、探索性能を強く向上させることができることを示す。
特に、モデル内のバイアスベクトルを微調整する単純なyet効果のアプローチが、既存のプロンプトエンジニアリング手法より優れていることが分かる。
論文 参考訳(メタデータ) (2021-09-06T23:29:36Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。