論文の概要: A Fast, Reliable, and Secure Programming Language for LLM Agents with Code Actions
- arxiv url: http://arxiv.org/abs/2506.12202v1
- Date: Fri, 13 Jun 2025 20:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.401318
- Title: A Fast, Reliable, and Secure Programming Language for LLM Agents with Code Actions
- Title(参考訳): コードアクションを持つLLMエージェントのための高速で信頼性が高くセキュアなプログラミング言語
- Authors: Stephen Mell, Botong Zhang, David Mell, Shuo Li, Ramya Ramalingam, Nathan Yu, Steve Zdancewic, Osbert Bastani,
- Abstract要約: 我々はQuasarと呼ばれるコードアクションのためのプログラミング言語を提案する。
LLMはPythonのサブセットでコードを書くことができ、自動的にQuasarに変換される。
Quasarアクションを持つLLMは高いパフォーマンスを維持し、可能な限り実行時間を42%削減する。
- 参考スコア(独自算出の注目度): 28.01600045250939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) are often deployed as agents, calling external tools adaptively to solve tasks. Rather than directly calling tools, it can be more effective for LLMs to write code to perform the tool calls, enabling them to automatically generate complex control flow such as conditionals and loops. Such code actions are typically provided as Python code, since LLMs are quite proficient at it; however, Python may not be the ideal language due to limited built-in support for performance, security, and reliability. We propose a novel programming language for code actions, called Quasar, which has several benefits: (1) automated parallelization to improve performance, (2) uncertainty quantification to improve reliability and mitigate hallucinations, and (3) security features enabling the user to validate actions. LLMs can write code in a subset of Python, which is automatically transpiled to Quasar. We evaluate our approach on the ViperGPT visual question answering agent, applied to the GQA dataset, demonstrating that LLMs with Quasar actions instead of Python actions retain strong performance, while reducing execution time when possible by 42%, improving security by reducing user approval interactions when possible by 52%, and improving reliability by applying conformal prediction to achieve a desired target coverage level.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、しばしばエージェントとしてデプロイされ、タスクを解決するために外部ツールを適応的に呼び出す。
ツールを直接呼び出すよりも、LLMがツールコールを実行するためのコードを書く方が効果的であり、条件やループのような複雑な制御フローを自動的に生成できる。
しかし、パフォーマンス、セキュリティ、信頼性に対するサポートが限定されているため、Pythonは理想的な言語ではないかもしれない。
本稿では,(1)性能向上のための自動並列化,(2)信頼性向上と幻覚軽減のための不確実性定量化,(3)ユーザがアクションを検証できるセキュリティ機能など,コードアクションのための新しいプログラミング言語Quasarを提案する。
LLMはPythonのサブセットでコードを書くことができ、自動的にQuasarに変換される。
GQA データセットに適用した ViperGPT 視覚質問応答エージェントに対するアプローチの評価を行い,Python アクションの代わりに Quasar アクションを付加した LLM が高い性能を維持しつつ,実行時間を 42% に短縮し,ユーザ承認のインタラクションを 52% に削減することでセキュリティを向上し,コンフォーマルな予測を適用して,所望の目標カバレッジレベルを達成することにより信頼性を向上させることを実証した。
関連論文リスト
- Effective LLM-Driven Code Generation with Pythoness [0.0]
Pythonessは、大きな言語モデル(LLM)を使用したコード生成のための組み込みドメイン固有言語である。
Pythonessでは、関数やクラス、プログラム全体を記述する際に、開発者は振る舞い仕様のレベルで動作します。
Pythonessは、テストとコード生成の組み合わせをうまく利用して、仕様のみよりも高品質なコードを生成することができることを示す。
論文 参考訳(メタデータ) (2025-01-03T23:14:46Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。