論文の概要: CI4A: Semantic Component Interfaces for Agents Empowering Web Automation
- arxiv url: http://arxiv.org/abs/2601.14790v1
- Date: Wed, 21 Jan 2026 09:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.306931
- Title: CI4A: Semantic Component Interfaces for Agents Empowering Web Automation
- Title(参考訳): CI4A: Webオートメーションを活用したエージェントのためのセマンティックコンポーネントインターフェース
- Authors: Zhi Qiu, Jiazheng Sun, Chenxiao Xia, Jun Zheng, Xin Peng,
- Abstract要約: 本稿では、UIコンポーネントの複雑なインタラクションロジックを、エージェントがアクセス可能な統一ツールプリミティブのセットに抽象化するセマンティックカプセル化機構であるComponent Interface for Agent(CI4A)を紹介する。
私たちは産業レベルのフロントエンドフレームワークであるAnt DesignにCI4Aを実装しました。
我々は、ページの状態に応じて動的に更新されるアクション空間を特徴とするハイブリッドエージェントを開発し、利用可能なCI4Aツールの柔軟な実行を可能にした。
- 参考スコア(独自算出の注目度): 7.1964453758467934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models demonstrate remarkable proficiency in high-level semantic planning, they remain limited in handling fine-grained, low-level web component manipulations. To address this limitation, extensive research has focused on enhancing model grounding capabilities through techniques such as Reinforcement Learning. However, rather than compelling agents to adapt to human-centric interfaces, we propose constructing interaction interfaces specifically optimized for agents. This paper introduces Component Interface for Agent (CI4A), a semantic encapsulation mechanism that abstracts the complex interaction logic of UI components into a set of unified tool primitives accessible to agents. We implemented CI4A within Ant Design, an industrial-grade front-end framework, covering 23 categories of commonly used UI components. Furthermore, we developed a hybrid agent featuring an action space that dynamically updates according to the page state, enabling flexible invocation of available CI4A tools. Leveraging the CI4A-integrated Ant Design, we refactored and upgraded the WebArena benchmark to evaluate existing SoTA methods. Experimental results demonstrate that the CI4A-based agent significantly outperforms existing approaches, achieving a new SoTA task success rate of 86.3%, alongside substantial improvements in execution efficiency.
- Abstract(参考訳): 大規模言語モデルは、ハイレベルなセマンティックプランニングにおいて顕著な習熟度を示すが、細粒度で低レベルなWebコンポーネント操作には制限がある。
この制限に対処するため、強化学習などの手法によるモデル基盤能力の向上に焦点が当てられている。
しかし、人間中心のインタフェースに適応するための説得力のあるエージェントではなく、エージェントに特化して最適化されたインタラクションインターフェースを構築することを提案する。
本稿では,UIコンポーネントの複雑なインタラクションロジックを,エージェントがアクセス可能な統一ツールプリミティブのセットに抽象化するセマンティックカプセル化機構CI4Aを紹介する。
私たちは産業レベルのフロントエンドフレームワークであるAnt DesignにCI4Aを実装しました。
さらに、ページの状態に応じて動的に更新されるアクション空間を特徴とするハイブリッドエージェントを開発し、利用可能なCI4Aツールの柔軟な実行を可能にした。
CI4A統合Antデザインを活用して、既存のSoTAメソッドを評価するためにWebArenaベンチマークをリファクタリングし、アップグレードしました。
実験の結果、CI4Aをベースとしたエージェントは既存のアプローチを著しく上回り、新しいSoTAタスクの成功率は86.3%となり、実行効率が大幅に向上した。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications [95.42093979627703]
AgentScopeは柔軟で効率的なツールベースのエージェント環境インタラクションをサポートする。
エージェントの動作をReActパラダイムに基盤として,エージェントレベルの高度なインフラストラクチャを提供します。
AgentScopeには、開発者フレンドリーなエクスペリエンスのための堅牢なエンジニアリングサポートも含まれている。
論文 参考訳(メタデータ) (2025-08-22T10:35:56Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。
PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。
調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - Towards Unifying Feature Interaction Models for Click-Through Rate Prediction [19.149554121852724]
我々は、既存のモデルを統一する、IPAと呼ばれる一般的なフレームワークを提案する。
これらの3つのコンポーネントに対して特定の選択を行うことで、既存のモデルの大部分をフレームワーク内で分類できることを実証します。
我々は,最先端のCTRモデルと比較して,競争力のある結果が得られる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-11-19T12:04:02Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Learning how to Interact with a Complex Interface using Hierarchical
Reinforcement Learning [38.51668090813733]
階層強化学習(HRL)は、対話型エージェントが複雑な問題をサブタスクの階層に分解することを可能にする。
複雑なインタフェースと対話する適切な方法を学ぶための階層的分解の有用性について検討する。
論文 参考訳(メタデータ) (2022-04-21T19:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。