論文の概要: Learning CLI Agents with Structured Action Credit under Selective Observation
- arxiv url: http://arxiv.org/abs/2605.08013v1
- Date: Fri, 08 May 2026 17:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.225668
- Title: Learning CLI Agents with Structured Action Credit under Selective Observation
- Title(参考訳): 選択的観察による構造的行動信用を持つ臨床エージェントの学習
- Authors: Haoyang Su, Ying Wen,
- Abstract要約: コマンドラインインタフェース(CLI)エージェントは、進化するエージェントとコンピュータの相互作用、実行可能なコマンドラインプログラム、オンライン実行フィードバックの実践パラダイムとして登場しつつある。
最近の研究では、これらのインタラクション能力を検証可能なタスクフィードバックから学習するために強化学習(RL)を使用しているが、CLIアクションのネイティブな構造化属性を学習信号として活用する手法はほとんどない。
シェル駆動型情報抽出とファイル編集タスクを用いて,これらのボトルネックについて検討する。
- 参考スコア(独自算出の注目度): 10.420078730796321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Command line interface (CLI) agents are emerging as a practical paradigm for agent-computer interaction over evolving filesystems, executable command line programs, and online execution feedback. Recent work has used reinforcement learning (RL) to learn these interaction abilities from verifiable task feedback, yet few methods exploit the native structured attributes of CLI actions as learning signals. Beyond this underused action structure, CLI learning also couples two bottlenecks for coding agents. First, the agent must identify task-relevant evidence in a large codebase from partial observations. Second, sparse terminal rewards must be assigned to the actions that shape a long multi-turn trajectory. We study these bottlenecks through shell-driven information extraction and file editing tasks. For selective observation, we introduce $σ$-Reveal, an inference-time mechanism that selects token-budgeted context for the same CLI. For credit assignment, we propose Action Advantage Assignment ($\mathrm{A}^3$), a native agentic RL method that preserves the algorithmic complexity of standard agentic RL. $\mathrm{A}^3$ constructs turn-level advantages from episode-level relative feedback, abstract syntax tree (AST) based action sub-chain residuals, and tree-level trajectory margins. To further evaluate this problem setting, we construct ShellOps, a verifiable dataset suite covering CLI tasks in repository environments.
- Abstract(参考訳): コマンドラインインタフェース(CLI)エージェントは、進化するファイルシステム、実行可能コマンドラインプログラム、オンライン実行フィードバックに対するエージェントとコンピュータの相互作用の実践パラダイムとして登場しつつある。
最近の研究では、これらのインタラクション能力を検証可能なタスクフィードバックから学習するために強化学習(RL)を使用しているが、CLIアクションのネイティブな構造化属性を学習信号として活用する手法はほとんどない。
この未使用のアクション構造以外にも、CLI学習には、コーディングエージェントのボトルネックが2つある。
まず、エージェントは部分的な観察から大きなコードベースのタスク関連エビデンスを特定する必要がある。
第二に、スパース終端報酬は、長いマルチターン軌道を形成するアクションに割り当てられなければならない。
シェル駆動型情報抽出とファイル編集タスクを用いて,これらのボトルネックについて検討する。
選択的な観察のために、同じCLIに対してトークン予算のコンテキストを選択する推論時メカニズムである$σ$-Revealを導入する。
本稿では,標準エージェントRLのアルゴリズム的複雑さを保存するネイティブエージェントRL法であるAction Advantage Assignment(\mathrm{A}^3$)を提案する。
$\mathrm{A}^3$は、エピソードレベルの相対的なフィードバック、抽象構文木(AST)ベースのアクションサブチェーン残差、ツリーレベルのトラジェクトリマージンからターンレベルの利点を構成します。
この問題をさらに評価するために、リポジトリ環境におけるCLIタスクをカバーする検証可能なデータセットスイートであるShellOpsを構築した。
関連論文リスト
- ARISE: A Repository-level Graph Representation and Toolset for Agentic Fault Localization and Program Repair [0.0]
ARISE (Agentic Repository-level Issue Solving Engine) は,マルチグラニュラリティプログラムグラフを用いたLLMエージェントを拡張したものである。
ARISEはこのグラフを3層ツールAPIを通じて公開し、データフロースライシングをファーストクラスのクエリ可能なエージェントプリミティブとして提供する。
我々は、Qwen2.5-Coder-32B-Instructをバックボーンとして、SWE-bench Lite(300の実際のGitHubイシュー、11のPythonレポジトリ)を評価した。
論文 参考訳(メタデータ) (2026-05-04T19:59:23Z) - Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features [1.5874067490843806]
Control Reinforcement Learningは、各トークンでステアリングするためのSAE機能を選択するポリシーをトレーニングし、解釈可能な介入ログを生成する。
Adaptive Feature Maskingは、単一機能解釈性を維持しながら、多様な機能発見を促進する。
MMLU、BBQ、GSM8K、HarmBench、XSTestにわたるGemma 2Bでは、CRLは、トークン単位の介入ログを提供しながら改善されている。
論文 参考訳(メタデータ) (2026-02-11T02:28:49Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。
複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文 参考訳(メタデータ) (2023-03-30T16:01:52Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。