論文の概要: CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
- arxiv url: http://arxiv.org/abs/2501.16609v1
- Date: Tue, 28 Jan 2025 00:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:37.201736
- Title: CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation
- Title(参考訳): CowPilot: 自律的で人力による協調的なWebナビゲーションのためのフレームワーク
- Authors: Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig,
- Abstract要約: CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。
エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。
CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
- 参考スコア(独自算出の注目度): 70.3224918173672
- License:
- Abstract: While much work on web agents emphasizes the promise of autonomously performing tasks on behalf of users, in reality, agents often fall short on complex tasks in real-world contexts and modeling user preference. This presents an opportunity for humans to collaborate with the agent and leverage the agent's capabilities effectively. We propose CowPilot, a framework supporting autonomous as well as human-agent collaborative web navigation, and evaluation across task success and task efficiency. CowPilot reduces the number of steps humans need to perform by allowing agents to propose next steps, while users are able to pause, reject, or take alternative actions. During execution, users can interleave their actions with the agent by overriding suggestions or resuming agent control when needed. We conducted case studies on five common websites and found that the human-agent collaborative mode achieves the highest success rate of 95% while requiring humans to perform only 15.2% of the total steps. Even with human interventions during task execution, the agent successfully drives up to half of task success on its own. CowPilot can serve as a useful tool for data collection and agent evaluation across websites, which we believe will enable research in how users and agents can work together. Video demonstrations are available at https://oaishi.github.io/cowpilot.html
- Abstract(参考訳): Webエージェントに関する多くの作業は、ユーザに代わって自律的にタスクを実行するという約束を強調しているが、現実には、エージェントは現実世界のコンテキストにおける複雑なタスクに不足し、ユーザの好みをモデル化することが多い。
これは、人間がエージェントと協力し、エージェントの能力を効果的に活用する機会を提供する。
CowPilotは、自律的および人間とエージェントによる協調的なWebナビゲーションを支援するフレームワークであり、タスクの成功とタスク効率を評価する。
CowPilotは、エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らす。
実行中、ユーザーは提案をオーバーライドしたり、必要に応じてエージェント制御を再開することで、エージェントとアクションをインターリーブすることができる。
5つのWebサイトのケーススタディを行い、人間とエージェントの協調モードが95%の最高成功率を達成する一方で、全体の15.2%しか実行できないことを発見した。
タスク実行中に人間が介入しても、エージェントは自身のタスク成功の最大半分を成功させる。
CowPilotは、Webサイト全体にわたるデータ収集とエージェント評価のための便利なツールとして機能する。
ビデオデモはhttps://oaishi.github.io/cowpilot.htmlで公開されている。
関連論文リスト
- Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - ChatCollab: Exploring Collaboration Between Humans and AI Agents in Software Teams [1.3967206132709542]
ChatCollabの斬新なアーキテクチャは、エージェント(人間またはAI)が任意の役割でコラボレーションに参加することを可能にする。
ソフトウェアエンジニアリングをケーススタディとして使用することで、私たちのAIエージェントが彼らの役割と責任をうまく特定できることが分かりました。
ソフトウェア開発のための従来の3つのマルチエージェントAIシステムに関連して、ChatCollab AIエージェントはインタラクティブなゲーム開発タスクにおいて、同等またはより良いソフトウェアを生成する。
論文 参考訳(メタデータ) (2024-12-02T21:56:46Z) - Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction [1.6574413179773757]
大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。
しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。
本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
論文 参考訳(メタデータ) (2024-11-23T02:47:12Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Multi-Agent Embodied Visual Semantic Navigation with Scene Prior
Knowledge [42.37872230561632]
視覚的セマンティックナビゲーションでは、ロボットは自我中心の視覚的観察を行い、目標のクラスラベルが与えられる。
既存のモデルのほとんどは単一エージェントナビゲーションにのみ有効であり、より複雑なタスクを完了すると、単一のエージェントは低効率でフォールトトレランスが低い。
本稿では,複数のエージェントが協調して複数の対象物を見つけるマルチエージェント視覚意味ナビゲーションを提案する。
論文 参考訳(メタデータ) (2021-09-20T13:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。