論文の概要: unix-ctf: Procedural Environments for Unix-Competence Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.29115v1
- Date: Wed, 27 May 2026 21:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.463833
- Title: unix-ctf: Procedural Environments for Unix-Competence Reinforcement Learning
- Title(参考訳): unix-ctf:Unix-Competence Reinforcement Learningのための手続き環境
- Authors: Geoffrey Bradway, Roger Creus Castanyer, Lorenz Wolf, Maxwill Lin, Matthew James Sargent, Augustine N. Mavor-Parker,
- Abstract要約: プログラムスルー・ア・シェルのベンチマークに分解されるよりも、Unixの能力は分離可能で、トレーニング可能で、直接評価する方がよいことを示す。
エンドレス・ターミナルズのフルコンテナ・ジェネレーション・アプローチの再現は17.4%に過ぎなかった。
- 参考スコア(独自算出の注目度): 3.1109443679002475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unix competence is the ability to use shell and operating-system primitives as first-class tools, not merely to write programs through a terminal. Current terminal benchmarks tend to blur this distinction: a solver fluent in Python but weak in Unix can pass a substantial fraction of Terminal-Bench 2.0, while the reverse skill profile is rarely exercised. We make the distinction operational and build a training surface for the Unix component. unix-ctf is a procedural generator of capture-the-flag tasks for shell agents. Each task hides a short token (a flag of the form flag(a3b1c9...)) inside a fresh Linux container using a single Unix feature, and the agent must recover it. Tasks are produced by an LLM-assisted synthesis pipeline that generates candidate hiding techniques, rewrites them into parameterized hide-and-find script pairs, and filters them with a bidirectional contract: the hide script must leave no plaintext trace of the flag on disk, and the find script must recover the flag in a fresh directory. Because the LLM only writes the planting and recovery steps (the container, layout, and grading harness are fixed), the pipeline lands 656 of 750 raw attempts as portable, reusable variants (87.5\%). Our reproduction of Endless Terminals' full-container-generation approach lands only 17.4\% under the same checks. The 656 variants canonicalize to 155 distinct techniques. Fine-tuning Qwen3-8B with LoRA using GRPO on this surface lifts solve rate from 11.6\% to 43.6\% on a 15-skill multi-family holdout (n=225), redistributes which InterCode-CTF tasks the model solves, and produces a +33 pp gain in Forensics while reaching 32/100 on InterCode-CTF. These results suggest that Unix competence is separable, trainable, and best evaluated directly rather than folded into programming-through-a-shell.
- Abstract(参考訳): Unixの能力は、シェルとオペレーティングシステムプリミティブを端末経由でプログラムを書くだけでなく、ファーストクラスツールとして使う能力である。
現行の端末ベンチマークでは、この区別を曖昧にしている傾向がある。Pythonに習熟しているがUnixに弱い者は、ターミナルベンチ2.0のかなりの割合を通過できるが、リバーススキルプロファイルはめったに実行されない。
私たちは、Unixコンポーネントのためのトレーニングサーフェスを運用的に構築します。
unix-ctfは、シェルエージェントのキャプチャー・ザ・フラッグタスクの手続き的ジェネレータである。
各タスクは、単一のUnix機能を使用して、新しいLinuxコンテナ内に短いトークン(フォームフラグ(a3b1c9...)のフラグ)を隠蔽し、エージェントがそれを回復しなければならない。
タスクはLSMが支援する合成パイプラインによって作成され、候補の隠蔽テクニックを生成し、パラメータ化された隠蔽と有限のスクリプトペアに書き直し、双方向のコントラクトでフィルタする。
LLMはプランティングとリカバリのステップ(コンテナ、レイアウト、グレーディングハーネスは固定されている)のみを記述しているため、パイプラインは750の生の試行のうち656を可搬性で再利用可能な変種(87.5\%)として着陸させた。
エンドレス・ターミナルズのフルコンテナ・ジェネレーション・アプローチの再現は、同じチェックで17.4\%にしか達しません。
656の変種は155の異なる技法に標準化された。
この表面でGRPOを用いたLORAを用いた微調整Qwen3-8Bは、15スキルのマルチファミリーホールドアウト(n=225)で11.6\%から43.6\%の解率を持ち、InterCode-CTFが解決するタスクを再試行し、InterCode-CTFで32/100に達すると、Forensicsで+33ppのゲインを発生させる。
これらの結果は、Unixの能力は、プログラムスルー・ア・シェルに折り畳まれるよりも、分離可能で、訓練可能で、直接的に評価されていることを示唆している。
関連論文リスト
- SPEAR: Code-Augmented Agentic Prompt Optimization [27.161602978517706]
SPEAR(SandFrame Prompt Engineer with Active Roll-back)は4つのツールを備えたフリーフォームエージェントである。
Pythonツールは、複雑な判断タスクにおける最大のシングルレバーである。
論文 参考訳(メタデータ) (2026-05-25T19:01:10Z) - Terminal-World: Scaling Terminal-Agent Environments via Agent Skills [52.39713754337834]
エージェントスキルを中心的な合成プリミティブとして利用する完全自動化パイプラインである Terminal-World を紹介する。
我々は,5,723のトレーニング環境を構築し,端末-ワールド-8B/14B/32Bを6つのベンチマークで評価した。
Terminal-World-32B は Terminal-Bench 2.0 で Nemotron-Terminal-32B を +4.5 Pass@1 (31.5) で上回り、43.8 Pass@3 に達する。
論文 参考訳(メタデータ) (2026-05-20T08:14:51Z) - XFP: Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation for LLM Inference [0.0]
XFPはコードブックのサイズ、アウトリーチ予算、レイヤごとのパッケージを自動的に決定する。
XFPはワークステーションハードウェア上で128 tok/sのシングルストリームデコードに達する。
対象メモリエンベロープに収まらないモデルに対しては、H-Processを示す。
論文 参考訳(メタデータ) (2026-05-14T13:52:31Z) - Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery [47.704311990064554]
脱コンパイルは、セキュリティ分析、マルウェアのリバースエンジニアリング、レガシーソフトウェアメンテナンスに不可欠である。
マルチレベル制約誘導型デコンパイル(MCGD)により,デコンパイルされたコードを再実行可能なソースに変換するマルチエージェントフレームワークを提案する。
本フレームワークは,84~97%の再実行性を実現し,28~89ポイントのベースラインデコンパイラ出力を改善した。
論文 参考訳(メタデータ) (2026-04-27T01:28:11Z) - From Translation to Superset: Benchmark-Driven Evolution of a Production AI Agent from Rust to Python [2.7324157162184157]
本稿では,大規模な言語モデルでRustの目的をPythonに翻訳するLLM支援型連続コード翻訳手法を提案する。
我々は、Pythonポートが59/80 SWE-bench検証タスク(73.8%)をRustの56/80(70.0%)に対して解決し、現実世界のエージェントタスクでほぼ同等であることを実証した。
評価の結果,APIレイテンシが支配的な LLM ベースのエージェントでは,Python の表現性が 15.9 倍のコード削減を実現している。
論文 参考訳(メタデータ) (2026-04-13T14:21:44Z) - Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs [75.62489398666644]
我々は,Claude Codeをベースとしたemphautoresearchスタイルのパイプライン citepkarpathy2026autoresearch が,新しいホワイトボックス対逆攻撃を発見できることを示した。
textbfsignantは、jailbreakで既存のすべての(30以上のメソッド)を著しく上回り、インジェクション評価を促します。
論文 参考訳(メタデータ) (2026-03-25T16:50:56Z) - A Simple Linear Patch Revives Layer-Pruned Large Language Models [58.056251480151104]
大規模言語モデル(LLM)の圧縮技術として広く使われているレイヤプルーニング(Layer pruning)が登場している。
textscLinearPatchはプルーニングインターフェイスで2つの操作を1つの行列に乗算する。
パッチはメモリ効率の悪いオフライン蒸留によって5Kの未ラベルのサンプルでさらに洗練され、1つのGPUでわずか30分で95.16%に保留できる。
論文 参考訳(メタデータ) (2025-05-30T15:06:08Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - LLM-Supported Natural Language to Bash Translation [3.944966059637878]
本稿では,コマンド実行とコマンド出力の評価を組み合わせた機能等価性を提案する。
解析,文脈内学習,重み付き学習,制約付き復号化により,NL2SHの精度が最大32%向上することを示した。
論文 参考訳(メタデータ) (2025-02-07T19:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。