論文の概要: cotomi Act: Learning to Automate Work by Watching You
- arxiv url: http://arxiv.org/abs/2605.03231v1
- Date: Mon, 04 May 2026 23:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.686921
- Title: cotomi Act: Learning to Automate Work by Watching You
- Title(参考訳): コトミ法(コトミ法):君を見ることで仕事の自動化を学ぶ
- Authors: Masafumi Oyamada, Kunihiro Takeoka, Kosuke Akimoto, Ryoma Obara, Masafumi Enomoto, Haochen Zhang, Daichi Haraguchi, Takuya Tamura,
- Abstract要約: Cotomi Actは、信頼性の高いマルチステップタスク実行と、ユーザ行動から学んだ永続的な組織的知識を組み合わせた、ブラウザベースのコンピュータ利用エージェントである。
実行のためには、適応的な遅延観察を持つエージェントスキャフォールドが179タスクのWebArenaのヒューマン評価サブセットで80.4%を達成する。
実演では、参加者が実際のブラウザでシステムと対話し、タスクを発行し、エンドツーエンドの自律実行を観察し、知識管理を共有します。
- 参考スコア(独自算出の注目度): 7.063461281524173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What if a browser agent could learn your work simply by watching you do it? We present cotomi Act, a browser-based computer-using agent that combines reliable multi-step task execution with persistent organizational knowledge learned from user behavior. For execution, an agent scaffold with adaptive lazy observation, verbal-diff-based history compression, coarse-grained actions, and test-time scaling via best-of-N action selection achieves 80.4% on the 179-task WebArena human-evaluation subset, exceeding the reported 78.2% human baseline. For organizational knowledge, a behavior-to-knowledge pipeline passively observes the user's browsing and progressively abstracts it into artifacts (task boards, wiki) exposed through a shared workspace editable by both user and agent. A controlled proxy evaluation confirms that task success improves as behavior-derived knowledge accumulates. In our live demonstration, attendees interact with the system in a real browser, issuing tasks and observing end-to-end autonomous execution and shared knowledge management.
- Abstract(参考訳): ブラウザのエージェントが自分の仕事をただ見ているだけで学べるとしたらどうだろう?
本稿では、信頼性の高いマルチステップタスク実行と、ユーザ行動から学んだ永続的な組織的知識を組み合わせた、ブラウザベースのコンピュータ利用エージェントであるcotomi Actを提案する。
実行には、適応的な遅延観察、動詞差分に基づく履歴圧縮、粗粒度アクション、およびベスト・オブ・Nアクション選択によるテスト時間スケーリングが179タスクのWebArenaの人間評価サブセットで80.4%を獲得し、報告された78.2%のヒトベースラインを上回っている。
組織的知識に対して、行動から知識へのパイプラインは、ユーザの閲覧を受動的に観察し、それを、ユーザとエージェントの両方が編集可能な共有ワークスペースを通じて公開するアーティファクト(タスクボード、wiki)に徐々に抽象化する。
制御されたプロキシ評価は、行動由来の知識が蓄積されるにつれてタスクの成功が改善することを確認した。
実演では、参加者が実際のブラウザでシステムと対話し、タスクを発行し、エンドツーエンドの自律実行を観察し、知識管理を共有します。
関連論文リスト
- SPILLage: Agentic Oversharing on the Web [13.930845226612767]
LLMはオープンウェブ全体でユーザーのタスクを自動化し始めており、しばしばEメールやカレンダーなどのユーザーリソースにアクセスしている。
私たちは、Webエージェントが、ライブWebサイト全体にわたってタスクを代行するときに、どのようにユーザーリソースを扱うのかを尋ねる。
本稿では,Web上のアクションのエージェントトレースを通じて,非意図的なタスク関連ユーザ情報の開示を行うNatural Agentic Over sharingを形式化する。
論文 参考訳(メタデータ) (2026-02-13T23:02:50Z) - CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3224918173672]
CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。
エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。
CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文 参考訳(メタデータ) (2025-01-28T00:56:53Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - Win-Fail Action Recognition [4.56877715768796]
さまざまな活動で成功と失敗の試みを区別するウィンフェイルアクション認識タスクを紹介します。
既存のアクション認識データセットとは異なり、クラス内の変動はタスクを難しくするが実行可能である。
先駆的行動認識ネットワークを用いたwin-failタスク/データセットの特徴と新しい映像検索タスクを体系的に解析する。
論文 参考訳(メタデータ) (2021-02-15T06:03:10Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。