論文の概要: LACUNA: Safe Agents as Recursive Program Holes
- arxiv url: http://arxiv.org/abs/2605.28617v1
- Date: Wed, 27 May 2026 15:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.176766
- Title: LACUNA: Safe Agents as Recursive Program Holes
- Title(参考訳): LACUNA:再帰的なプログラムホールとして安全なエージェント
- Authors: Yaoyu Zhao, Yichen Xu, Oliver Bračevac, Cao Nguyen Pham, Frank Zhengqing Wu, Martin Odersky,
- Abstract要約: LLMエージェントはますますコードを記述することで振る舞うが、エージェントを駆動するランタイムとモデルが記述するコードの間には分割が持続する。
我々は、安全性を維持しながら、この分割を閉じるエージェントのためのプログラミングモデルであるLACUNAを紹介する。
我々のプリミティブは、通常の制御フローとしてReActループ、サブエージェント、スキル、並列分解、マルチモデル計画を表現する。
- 参考スコア(独自算出の注目度): 3.2613419151327343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents increasingly act by writing code, yet a split persists between the runtime that drives the agent and the code the model writes. The runtime owns the loop, context, and control flow, and the model has little say over any of them. Letting model-written code shape the runtime itself would make agents more expressive, but it would also sharpen safety problems. A model can be diverted by a prompt injection, call the wrong tool, or fail partway and leave an inconsistent state, and each such failure reaches further when the code shapes the runtime than when it expresses a single action. We present LACUNA, a programming model for agents that closes this split while preserving safety. Each agent action is a typed call $\texttt{agent[T](task)}$ that the LLM fills with code when execution reaches it, and the code is type-checked against the surrounding program before it runs. Because each action is accepted or rejected as a whole, a rejected one leaves the environment untouched, and its compiler diagnostics drive a retry. The same check also bounds which tools and data an action may use and how they flow. Our primitive expresses ReAct loops, sub-agents, skills, parallel decomposition, and multi-model planning as ordinary control flow. We evaluate LACUNA on a collection of test cases, BrowseComp-Plus, and $τ^2$-bench. On BrowseComp-Plus, $8.6\%$ of generations are rejected before execution, with 0.7 retries per query on average, and the agent reaches $27.1\%$ accuracy. On $τ^2$-bench, LACUNA solves $76.0\%$ of $392$ tasks across four domains with a capable model, on par with the baseline agent.
- Abstract(参考訳): LLMエージェントはますますコードを記述することで振る舞うが、エージェントを駆動するランタイムとモデルが記述するコードの間には分割が持続する。
ランタイムはループ、コンテキスト、制御フローを所有しており、モデルがそのどれかについてほとんど述べていない。
モデル記述されたコードをランタイム自体に組み込むことで、エージェントをより表現力のあるものにするが、安全性の問題も解決する。
モデルは、プロンプトインジェクション、間違ったツールの呼び出し、あるいは部分的に失敗し、一貫性のない状態のままにすることができる。
我々は、安全性を維持しながら、この分割を閉じるエージェントのためのプログラミングモデルであるLACUNAを紹介する。
各エージェントアクションは、型付きコール $\texttt{agent[T](task)}$ で、実行時に LLM がコードで満たされ、コードが実行前に周辺プログラムに対して型チェックされる。
各アクションは全体として受け入れられたり拒否されるため、拒否されたアクションは環境に手を加えず、コンパイラの診断によって再試行される。
同じチェックは、アクションがどのツールやデータを使うか、どのように流れるかも制限する。
我々のプリミティブは、通常の制御フローとしてReActループ、サブエージェント、スキル、並列分解、マルチモデル計画を表現する。
LACUNA は BrowseComp-Plus と $τ^2$-bench の2種類のテストケースで評価した。
BrowseComp-Plusでは、実行前に8.6\%の世代が拒否され、クエリ毎に0.7リトライされ、エージェントは27.1\%の精度に達する。
τ^2$-benchでは、LACUNAは4つのドメインにまたがる392$タスクの76.0\%$を、ベースラインエージェントと同等の有能なモデルで解決する。
関連論文リスト
- ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads? [0.8749675983608171]
実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
論文 参考訳(メタデータ) (2026-02-23T08:37:53Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - CodeMem: Architecting Reproducible Agents via Dynamic MCP and Procedural Memory [0.5599792629509229]
現在のツールを使用するAIエージェントは、アクションスペースの制限、コンテキストの非効率性、確率的不安定性に悩まされている。
本稿では,再利用可能なエージェントを決定論的信頼性で構築・実行するために,コードを介して手続き型メモリを実装するアーキテクチャであるCodeMemを提案する。
論文 参考訳(メタデータ) (2025-12-17T11:28:25Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - CodeCoR: An LLM-Based Self-Reflective Multi-Agent Framework for Code Generation [10.048098631259876]
コード生成は、自然言語で書かれた要求を自動的に満たすコードを生成することを目的としている。
ChatGPTのような大きな言語モデル(LLM)は、生成されたコードの構文的および意味論的正確性を保証するのに失敗する。
我々は,各エージェントとそのコラボレーションの有効性を評価する,自己表現型マルチエージェントフレームワークであるCodeCoRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。