論文の概要: Orca: Browsing at Scale Through User-Driven and AI-Facilitated Orchestration Across Malleable Webpages
- arxiv url: http://arxiv.org/abs/2505.22831v1
- Date: Wed, 28 May 2025 20:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.518084
- Title: Orca: Browsing at Scale Through User-Driven and AI-Facilitated Orchestration Across Malleable Webpages
- Title(参考訳): Orca: 悪意のあるWebページをまたいだユーザ駆動とAI対応のオーケストレーションを通じて、大規模にブラウジングする
- Authors: Peiling Jiang, Haijun Xia,
- Abstract要約: プロトタイプのWebブラウザであるOrcaとの新しいインタラクションを提示する。
Orcaは、大規模にWebコンテンツの探索、運用、組織化、合成をサポートする。
評価の結果,情報収集,ユーザコントロールの強化,およびWeb上のより広い情報空間における感覚形成の柔軟性向上に対する「期待」が明らかにされた。
- 参考スコア(独自算出の注目度): 18.25019078938821
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web-based activities are fundamentally distributed across webpages. However, conventional browsers with stacks of tabs fail to support operating and synthesizing large volumes of information across pages. While recent AI systems enable fully automated web browsing and information synthesis, they often diminish user agency and hinder contextual understanding. Therefore, we explore how AI could instead augment users' interactions with content across webpages and mitigate cognitive and manual efforts. Through literature on information tasks and web browsing challenges, and an iterative design process, we present a rich set of novel interactions with our prototype web browser, Orca. Leveraging AI, Orca supports user-driven exploration, operation, organization, and synthesis of web content at scale. To enable browsing at scale, webpages are treated as malleable materials that humans and AI can collaboratively manipulate and compose into a malleable, dynamic, and browser-level workspace. Our evaluation revealed an increased "appetite" for information foraging, enhanced user control, and more flexibility in sensemaking across a broader information landscape on the web.
- Abstract(参考訳): Webベースのアクティビティは、基本的にWebページに分散しています。
しかし、タブのスタックを持つ従来のブラウザは、ページをまたいだ大量の情報の操作と合成をサポートしない。
最近のAIシステムは、完全に自動化されたWebブラウジングと情報合成を可能にするが、ユーザエージェンシーを減らし、コンテキスト理解を妨げることが多い。
そこで我々は,AIがユーザとWebページをまたいだコンテンツとのインタラクションを強化し,認知と手作業の軽減を実現する方法について検討する。
情報タスクやWebブラウジングの課題に関する文献や反復的な設計プロセスを通じて、プロトタイプのWebブラウザであるOrcaとの新しいインタラクションの豊富なセットを提示する。
AIを活用することで、Orcaは、大規模にWebコンテンツの探索、運用、組織化、合成をサポートする。
大規模なブラウジングを可能にするため、Webページは、人間とAIが共同で操作し、可鍛性、動的、ブラウザレベルのワークスペースに構成できる、可鍛性のある素材として扱われる。
評価の結果,情報収集,ユーザコントロールの強化,およびWeb上のより広い情報空間における感覚形成の柔軟性向上に対する「期待」が明らかにされた。
関連論文リスト
- Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI [56.98603185789977]
スマートグラス上で動作するWebネイティブなニューロシンボリックフレームワークであるEgocentric Co-Pilotを紹介します。
認識、推論、Webツールのツールボックスを編成するために、LLM(Large Language Model)を使用します。
EgolifeとHD-EPICの実験は、競争力や最先端のエゴセントリックQAパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-03-01T13:43:04Z) - Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts [59.68272935616536]
Avenir-Webは、現実世界のデプロイにおいて、Online-Mind2Webベンチマークの新たなオープンソース状態を達成するWebエージェントである。
Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
論文 参考訳(メタデータ) (2026-02-02T18:50:07Z) - Nested Browser-Use Learning for Agentic Information Seeking [60.775556172513014]
情報検索(IS)エージェントは広範囲にわたる検索タスクで高いパフォーマンスを達成しているが、ツールの使用はAPIレベルのスニペット検索やURLベースのページフェッチに限られている。
我々はNested Browser-Use Learning (NestBrowse)を提案する。NestBrowseは、ネストされた構造を通してページ探索からインタラクション制御を分離する最小かつ完全なブラウザアクションフレームワークである。
論文 参考訳(メタデータ) (2025-12-29T17:59:14Z) - Toward an AI-Native Internet: Rethinking the Web Architecture for Semantic Retrieval [4.983378378534548]
AI-Native Internetの概念は、サーバが完全なドキュメントではなく、意味的に関連する情報をチャンクとして公開するWebアーキテクチャである。
現在のHTMLベースの検索の非効率性を定量化し、今日のドキュメント中心のWebをAI指向の基板に進化させる上でのアーキテクチャ上の方向性とオープンな課題を概説する。
論文 参考訳(メタデータ) (2025-11-23T09:01:22Z) - Building the Web for Agents: A Declarative Framework for Agent-Web Interaction [0.7116403133334644]
我々は、WebサイトがAIエージェントの信頼性、監査可能、プライバシ保護機能を公開できるWebネイティブフレームワークVOIXを紹介した。
VOIXはツール>とコンテキスト>タグを導入し、開発者は利用可能なアクションと関連する状態を明確に定義できる。
16人の開発者を対象とした3日間のハッカソン研究で,本フレームワークの実用性,学習性,表現性を評価した。
論文 参考訳(メタデータ) (2025-11-14T13:23:34Z) - Interaction-Driven Browsing: A Human-in-the-Loop Conceptual Framework Informed by Human Web Browsing for Browser-Using Agents [0.6445605125467574]
本稿では,人間のWeb閲覧行動の理論に基づいて,ループ内のヒューマン・イン・ザ・ループの概念的枠組みを提案する。
このフレームワークは、BUAが積極的に次のアクションを提案し、ユーザがフィードバックを通じてブラウジングプロセスを運営する反復ループに重点を置いている。
論文 参考訳(メタデータ) (2025-09-15T15:31:53Z) - Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。
このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。
本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:58:12Z) - Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.32705135051486]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。
多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。
その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (2025-06-18T17:58:17Z) - Build the web for agents, not agents for the web [27.969222950526703]
本稿では,エージェントがWebサイトをナビゲートするためのインターフェースであるAWI(Agentic Web Interface)の概念を紹介する。
AWI設計の原則を6つ確立し,安全性,効率,標準化を重視した。
このリフレーミングは、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性があり透明なWebエージェント設計への道を開くことを目的としています。
論文 参考訳(メタデータ) (2025-06-12T17:53:58Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。
また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - WebNav: An Intelligent Agent for Voice-Controlled Web Navigation [0.0]
WebNavはマルチモーダルなWebナビゲーションのための新しいエージェントである。
システムは、スクリーンショットからの視覚ベースのコンテキストと動的DOMラベルのブラウザ拡張を組み合わせる。
論文 参考訳(メタデータ) (2025-03-18T02:33:27Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - Biotic Browser: Applying StreamingLLM as a Persistent Web Browsing Co-Pilot [0.0]
Biotic Browser"は、StreamingLLMを利用してWebナビゲーションとタスク実行を変換する革新的なAIアシスタントである。
自動運転車の乗客の体験をシミュレートする能力によって特徴付けられるBiotic Browserは、拡張されたインタラクションや複雑なマルチステップのWebベースのタスクの管理に長けている。
論文 参考訳(メタデータ) (2024-10-31T16:12:02Z) - Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.55963742878684]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。
また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文 参考訳(メタデータ) (2024-10-28T23:10:06Z) - AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation [0.0]
オンラインニューログラフィック操作と深部探索によるユーザインタフェースの自律的変換
我々のエンジンはエージェントが複雑に理解し実装し、非並列な効率で動的Web環境に適応することを可能にする。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、様々なWebベースのタスクを管理する能力を強調している。
論文 参考訳(メタデータ) (2024-03-15T10:27:17Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Exploring the Potential of Generative AI for the World Wide Web [0.94491536689161]
我々は、World Wide Webの領域における生成AIの可能性を探る。
Web開発者は、すでに生成AIを使用してテキストや画像の作成を支援している。
Webブラウザは将来、壊れたWebページの修復、帯域幅の保存、プライバシーの強化といったタスクのために、ローカルに画像を生成するためにそれを使うかもしれない。
論文 参考訳(メタデータ) (2023-10-26T13:02:45Z) - Adversarial Environment Generation for Learning to Navigate the Web [107.99759923626242]
Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-02T19:19:30Z) - Bringing Cognitive Augmentation to Web Browsing Accessibility [69.62988485669146]
我々は、より自然でアクセス可能なwebブラウジング体験を提供するための認知的拡張によってもたらされる機会を探求する。
我々は,BVIP対話型Webブラウジングニーズを支援するための概念的フレームワークを開発する。
構造的特徴とコンテンツ機能のみを考慮した初期の作業とプロトタイプについて説明する。
論文 参考訳(メタデータ) (2020-12-07T14:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。