論文の概要: WebNav: An Intelligent Agent for Voice-Controlled Web Navigation
- arxiv url: http://arxiv.org/abs/2503.13843v2
- Date: Sun, 06 Jul 2025 08:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 17:51:39.710281
- Title: WebNav: An Intelligent Agent for Voice-Controlled Web Navigation
- Title(参考訳): WebNav: 音声制御Webナビゲーションのためのインテリジェントエージェント
- Authors: Trisanth Srinivasan, Santosh Patapati,
- Abstract要約: WebNavはマルチモーダルなWebナビゲーションのための新しいエージェントである。
システムは、スクリーンショットからの視覚ベースのコンテキストと動的DOMラベルのブラウザ拡張を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current state of modern web interfaces, especially in regards to accessibility focused usage is extremely lacking. Traditional methods for web interaction, such as scripting languages and screen readers, often lack the flexibility to handle dynamic content or the intelligence to interpret high-level user goals. To address these limitations, we introduce WebNav, a novel agent for multi-modal web navigation. WebNav leverages a dual Large Language Model (LLM) architecture to translate natural language commands into precise, executable actions on a graphical user interface. The system combines vision-based context from screenshots with a dynamic DOM-labeling browser extension to robustly identify interactive elements. A high-level 'Controller' LLM strategizes the next step toward a user's goal, while a second 'Assistant' LLM generates the exact parameters for execution. This separation of concerns allows for sophisticated task decomposition and action formulation. Our work presents the complete architecture and implementation of WebNav, demonstrating a promising approach to creating more intelligent web automation agents.
- Abstract(参考訳): 現代ウェブインターフェースの現状、特にアクセシビリティに焦点をあてた利用状況は極めて不足している。
スクリプト言語やスクリーンリーダーのような従来のウェブインタラクションの方法は、動的コンテンツを扱う柔軟性や高レベルのユーザー目標を解釈する知性に欠けることが多い。
これらの制約に対処するために、マルチモーダルなWebナビゲーションのための新しいエージェントであるWebNavを紹介する。
WebNavは2つのLarge Language Model (LLM)アーキテクチャを活用して、自然言語コマンドをグラフィカルユーザインタフェース上で正確に実行可能なアクションに変換する。
このシステムは、スクリーンショットからの視覚ベースのコンテキストと動的DOMラベルのブラウザ拡張を組み合わせることで、インタラクティブな要素を堅牢に識別する。
高レベルの 'Controller' LLM はユーザの目標に向かって次のステップを戦略化し、第2の 'Assistant' LLM は実行のための正確なパラメータを生成する。
この関心事の分離は、高度なタスクの分解とアクションの定式化を可能にする。
我々の研究はWebNavの完全なアーキテクチャと実装を示し、よりインテリジェントなWeb自動化エージェントを作成するための有望なアプローチを示します。
関連論文リスト
- R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - PAFFA: Premeditated Actions For Fast Agents [23.363582411971567]
PAFFAは、再利用可能な、検証済みのブラウザインタラクション関数のAction API Libraryを通じて、Webインタラクション機能を強化するように設計されたフレームワークである。
Webサイト構造が進化しても、堅牢なパフォーマンスを維持しながら、推論コールを87%削減する。
このフレームワークはマルチページタスクの実行を加速し、自律的なWebエージェントの研究を進めるためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents [7.41862656697588]
本研究の目的は,Webナビゲーションエージェントの機能に不可欠な様々なコンテキスト要素を解析することである。
インタラクション履歴とWebページ表現の影響に焦点を当てる。
当社の作業は、アウト・オブ・ディストリビューションシナリオにおけるエージェントパフォーマンスの向上を強調しています。
論文 参考訳(メタデータ) (2024-10-31T01:51:41Z) - Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。
異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文 参考訳(メタデータ) (2024-10-24T18:01:28Z) - NaviQAte: Functionality-Guided Web Application Navigation [6.0759036120654315]
NaviQAteは、Webアプリケーションの探索を質問と回答のタスクとして捉え、詳細なパラメータを必要とせずに機能のためのアクションシーケンスを生成する。
我々の3段階のアプローチでは、GPT-4oのような先進的な言語モデルを用いて複雑な意思決定を行い、GPT-4o miniのようなコスト効率のよいモデルを用いる。
論文 参考訳(メタデータ) (2024-09-16T21:18:39Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。
我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。