論文の概要: ShIOEnv: A CLI Behavior-Capturing Environment Enabling Grammar-Guided Command Synthesis for Dataset Curation
- arxiv url: http://arxiv.org/abs/2505.18374v1
- Date: Fri, 23 May 2025 21:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.37865
- Title: ShIOEnv: A CLI Behavior-Capturing Environment Enabling Grammar-Guided Command Synthesis for Dataset Curation
- Title(参考訳): ShIOEnv:データセットキュレーションのための文法誘導コマンド合成によるCLI行動キャプチャ環境
- Authors: Jarrod Ragsdale, Rajendra Boppana,
- Abstract要約: コマンドラインインタフェース(CLI)は、システム管理のための構造化されたテキスト環境を提供する。
既存の公開データセットは、自然言語タスクをコマンドにマッピングすることに重点を置いている。
コマンド構成をマルコフ決定プロセスとしてキャストするシェル入力出力環境(ShIOEnv)を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Command-line interfaces (CLIs) provide structured textual environments for system administration. Explorations have been performed using pre-trained language models (PLMs) to simulate these environments for safe interaction in high-risk environments. However, their use has been constrained to frozen, large parameter models like GPT. For smaller architectures to reach a similar level of believability, a rich dataset of CLI interactions is required. Existing public datasets focus on mapping natural-language tasks to commands, omitting crucial execution data such as exit codes, outputs, and environmental side effects, limiting their usability for behavioral modeling. We introduce a Shell Input -Output Environment (ShIOEnv), which casts command construction as a Markov Decision Process whose state is the partially built sequence and whose actions append arguments. After each action, ShIOEnv executes the candidate and returns its exit status, output, and progress toward a minimal-length behavioral objective. Due to the intractable nature of the combinatorial argument state-action space, we derive a context-free grammar from man pages to mask invalid arguments from being emitted. We explore random and proximal-policy optimization (PPO)-optimized sampling of unrestricted and grammar-masked action spaces to produce four exploration strategies. We observed that grammar masking and PPO significantly improve sample efficiency to produce a higher quality dataset (maximizing the number of arguments while minimizing redundancies). Policy-generated datasets of shell input-output behavior pairs are used to fine-tune CodeT5, where we observe 85% improvements in BLEU-4 when constraining the action space to grammar productions with an additional 26% improvement when applying PPO. The ShIOEnv environment and curated command behavior datasets are released for use in future research.
- Abstract(参考訳): コマンドラインインタフェース(CLI)は、システム管理のための構造化されたテキスト環境を提供する。
プレトレーニング言語モデル(PLM)を用いて、これらの環境を高リスク環境における安全な相互作用のためにシミュレートした。
しかし、それらの使用は、GPTのような凍った大きなパラメータモデルに制限されている。
小規模アーキテクチャが同じようなレベルの信頼性に達するためには、CLIインタラクションの豊富なデータセットが必要である。
既存の公開データセットは、自然言語タスクをコマンドにマッピングすること、出口コード、出力、環境サイドエフェクトといった重要な実行データを省略すること、行動モデリングのユーザビリティを制限することに焦点を当てている。
シェル入力-出力環境(ShIOEnv)を導入し、コマンド構成を部分的に構築されたシーケンスであり、アクションが引数を付加するマルコフ決定プロセスとしてキャストする。
それぞれのアクションの後、ShIOEnvは候補を実行し、その終了ステータス、出力、最小長の行動目標への進捗を返す。
組合せ的引数の状態-作用空間の難解な性質のため、文脈自由文法をマンページから導出し、無効な引数をマスクする。
本研究では, ランダム・近位政治最適化(PPO)を最適化し, 4つの探索戦略を導出する。
文法マスキングとPPOは,より高品質なデータセットを生成するために,サンプル効率を著しく向上させる(冗長性を最小化しながら,引数数を最大化する)。
CodeT5では,PPOを適用した場合,アクション空間を文法生成量に制限した場合に,BLEU-4の85%の改善が見られ,さらに26%の改善が加えられた。
ShIOEnv環境とキュレートされたコマンド動作データセットは、将来の研究で使用するためにリリースされている。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:00:06Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - From Words to Code: Harnessing Data for Program Synthesis from Natural
Language [12.665932954069476]
大規模言語モデル(LLM)が生成するプログラムをリランクする手法であるセマンティック・リグレードを導入する。
また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。
トップ1の精度は最大45%、トップ3の精度は34%向上した。
論文 参考訳(メタデータ) (2023-05-02T16:56:32Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Grounded Adaptation for Zero-shot Executable Semantic Parsing [96.07134989233278]
我々は,既存のセマンティックパーシングを新しい環境に適応させるために,ゼロショット実行可能セマンティックパーシング(GAZP)のためのグラウンドド適応を提案する。
GAZPは、フォワードセマンティックパーシングと後方発話生成器を組み合わせて、新しい環境でデータを合成し、適応するためにサイクル一貫性のある例を選択する。
トレーニング環境では、通常、検証されていないサンプルを合成するデータ拡張とは異なり、GAZPは入力出力が検証された新しい環境でサンプルを合成する。
論文 参考訳(メタデータ) (2020-09-16T00:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。