論文の概要: A Case for Declarative LLM-friendly Interfaces for Improved Efficiency of Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2510.04607v1
- Date: Mon, 06 Oct 2025 09:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.768452
- Title: A Case for Declarative LLM-friendly Interfaces for Improved Efficiency of Computer-Use Agents
- Title(参考訳): コンピュータ利用エージェントの効率向上を目的とした宣言型LCMインタフェースの一事例
- Authors: Yuan Wang, Mingyu Li, Haibo Chen,
- Abstract要約: 既存のGUIを3つの宣言的プリミティブに変換する新しい抽象化であるGoal-Oriented Interface (GOI)を提案する。
GOIは、アプリケーションのソースコードを変更したり、アプリケーションプログラミングインターフェース(API)に依存する必要はない。
- 参考スコア(独自算出の注目度): 7.687846129934911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-use agents (CUAs) powered by large language models (LLMs) have emerged as a promising approach to automating computer tasks, yet they struggle with graphical user interfaces (GUIs). GUIs, designed for humans, force LLMs to decompose high-level goals into lengthy, error-prone sequences of fine-grained actions, resulting in low success rates and an excessive number of LLM calls. We propose Goal-Oriented Interface (GOI), a novel abstraction that transforms existing GUIs into three declarative primitives: access, state, and observation, which are better suited for LLMs. Our key idea is policy-mechanism separation: LLMs focus on high-level semantic planning (policy) while GOI handles low-level navigation and interaction (mechanism). GOI does not require modifying the application source code or relying on application programming interfaces (APIs). We evaluate GOI with Microsoft Office Suite (Word, PowerPoint, Excel) on Windows. Compared to a leading GUI-based agent baseline, GOI improves task success rates by 67% and reduces interaction steps by 43.5%. Notably, GOI completes over 61% of successful tasks with a single LLM call.
- Abstract(参考訳): 大規模言語モデル(LLM)を駆使したコンピュータ利用エージェント(CUA)は、コンピュータタスクを自動化するための有望なアプローチとして登場したが、グラフィカルユーザインタフェース(GUI)に苦戦している。
人間のために設計されたGUIは、LLMに高い目標を細かなアクションの長い、エラーを起こしやすいシーケンスに分解させ、成功率を低くし、LLM呼び出しを過度に数えるように強制する。
本稿では,既存のGUIを3つの宣言的プリミティブ(アクセス,状態,観察)に変換する新しい抽象化であるGoal-Oriented Interface(GOI)を提案する。
LLMは高レベルのセマンティックプランニング(政治)に重点を置いており、GOIは低レベルのナビゲーションとインタラクション(メカリズム)を扱っています。
GOIは、アプリケーションのソースコードを変更したり、アプリケーションプログラミングインターフェース(API)に依存する必要はない。
Windows 上で Microsoft Office Suite (Word,PowerPoint,Excel) を用いて GOI を評価する。
GUIベースのエージェントベースラインと比較して、GOIはタスクの成功率を67%改善し、インタラクションステップを43.5%削減した。
特にGOIは、1回のLSMコールで61%以上のタスクを完了している。
関連論文リスト
- API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。