論文の概要: Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs
- arxiv url: http://arxiv.org/abs/2504.20406v1
- Date: Tue, 29 Apr 2025 04:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.74526
- Title: Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs
- Title(参考訳): LLMを用いたオフラインシミュレーションによるソフトウェアスクリプト自動化のためのスキル発見
- Authors: Paiheng Xu, Gang Wu, Xiang Chen, Tong Yu, Chang Xiao, Franck Dernoncourt, Tianyi Zhou, Wei Ai, Viswanathan Swaminathan,
- Abstract要約: 検証済みスクリプトの集合であるソフトウェア固有のスキルセットをキュレートするためのオフラインシミュレーションフレームワークを提案する。
本フレームワークは,1)タスク作成,トップダウン機能の利用,およびボトムアップAPIのシナジー探索という2つのコンポーネントから構成される。
Adobe Illustratorでの実験では、我々のフレームワークは自動化の成功率を大幅に改善し、レスポンス時間を短縮し、ランタイムトークンのコストを削減しています。
- 参考スコア(独自算出の注目度): 63.10710876536337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scripting interfaces enable users to automate tasks and customize software workflows, but creating scripts traditionally requires programming expertise and familiarity with specific APIs, posing barriers for many users. While Large Language Models (LLMs) can generate code from natural language queries, runtime code generation is severely limited due to unverified code, security risks, longer response times, and higher computational costs. To bridge the gap, we propose an offline simulation framework to curate a software-specific skillset, a collection of verified scripts, by exploiting LLMs and publicly available scripting guides. Our framework comprises two components: (1) task creation, using top-down functionality guidance and bottom-up API synergy exploration to generate helpful tasks; and (2) skill generation with trials, refining and validating scripts based on execution feedback. To efficiently navigate the extensive API landscape, we introduce a Graph Neural Network (GNN)-based link prediction model to capture API synergy, enabling the generation of skills involving underutilized APIs and expanding the skillset's diversity. Experiments with Adobe Illustrator demonstrate that our framework significantly improves automation success rates, reduces response time, and saves runtime token costs compared to traditional runtime code generation. This is the first attempt to use software scripting interfaces as a testbed for LLM-based systems, highlighting the advantages of leveraging execution feedback in a controlled environment and offering valuable insights into aligning AI capabilities with user needs in specialized software domains.
- Abstract(参考訳): スクリプトインターフェースにより、ユーザーはタスクを自動化し、ソフトウェアワークフローをカスタマイズできるが、伝統的にスクリプトを作成するにはプログラミングの専門知識と特定のAPIに精通する必要があり、多くのユーザーにとって障壁となる。
大規模言語モデル(LLM)は自然言語クエリからコードを生成することができるが、実行時のコード生成は、未検証コード、セキュリティリスク、応答時間の延長、計算コストの増大などにより、著しく制限されている。
このギャップを埋めるために,ソフトウェア固有のスキルセット,検証済みスクリプトのコレクションをLLMと公開スクリプトガイドを利用してキュレートするオフラインシミュレーションフレームワークを提案する。
本フレームワークは,(1)タスク作成,トップダウン機能ガイダンス,およびボトムアップAPIのシナジー探索による有用なタスク生成,(2)テストによるスキル生成,改善,実行フィードバックに基づくスクリプトの検証の2つのコンポーネントから構成される。
広範にわたるAPIの展望を効率的にナビゲートするために,グラフニューラルネットワーク(GNN)ベースのリンク予測モデルを導入し,APIのシナジーを捕捉し,未使用のAPIに関わるスキルの生成とスキルセットの多様性の拡大を可能にする。
Adobe Illustratorでの実験では、我々のフレームワークは自動化の成功率を大幅に改善し、レスポンスタイムを短縮し、従来のランタイムコード生成と比較してランタイムトークンコストを削減しています。
これは、LLMベースのシステムのテストベッドとしてソフトウェアスクリプティングインターフェースを使用する最初の試みであり、制御された環境で実行フィードバックを活用することの利点を強調し、専門のソフトウェアドメインにおけるユーザーニーズとAI能力の整合性に関する貴重な洞察を提供する。
関連論文リスト
- API Agents vs. GUI Agents: Divergence and Convergence [35.28490346033735]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - Control Industrial Automation System with Large Language Models [2.2369578015657954]
本稿では,大規模言語モデルと産業自動化システムを統合するためのフレームワークを提案する。
フレームワークの中核には、産業タスク用に設計されたエージェントシステム、構造化プロンプト方法、イベント駆動情報モデリング機構がある。
コントリビューションには、フォーマルなシステム設計、概念実証実装、タスク固有のデータセットを生成する方法が含まれる。
論文 参考訳(メタデータ) (2024-09-26T16:19:37Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Lessons from Building StackSpot AI: A Contextualized AI Coding Assistant [2.268415020650315]
大規模言語モデル上に構築された新しいタイプのツールが登場しつつある。
これらのツールは、微調整やコンテキスト情報によるユーザプロンプトの強化といった手法を用いて、欠点を軽減することを目的としている。
論文 参考訳(メタデータ) (2023-11-30T10:51:26Z) - TaskWeaver: A Code-First Agent Framework [50.99683051759488]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。
ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。
リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文 参考訳(メタデータ) (2023-11-29T11:23:42Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。