Fugu-MT 論文翻訳(概要): WebNav: An Intelligent Agent for Voice-Controlled Web Navigation

論文の概要: WebNav: An Intelligent Agent for Voice-Controlled Web Navigation

arxiv url: http://arxiv.org/abs/2503.13843v1
Date: Tue, 18 Mar 2025 02:33:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:12.264841
Title: WebNav: An Intelligent Agent for Voice-Controlled Web Navigation
Title（参考訳）: WebNav: 音声制御Webナビゲーションのためのインテリジェントエージェント
Authors: Trisanth Srinivasan, Santosh Patapati,
Abstract要約: WebNavは、ReActにインスパイアされたアーキテクチャと生成AIを活用して、このフレームワークを提供する音声制御Webナビゲーションエージェントである。予備評価では、WebNavは、視覚障害者に対する応答時間とタスク完了精度において、従来のスクリーンリーダーよりも優れていた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing reliance on web interfaces presents many challenges for visually impaired users, showcasing the need for more advanced assistive technologies. This paper introduces WebNav, a voice-controlled web navigation agent that leverages a ReAct-inspired architecture and generative AI to provide this framework. WebNav comprises of a hierarchical structure: a Digital Navigation Module (DIGNAV) for high-level strategic planning, an Assistant Module for translating abstract commands into executable actions, and an Inference Module for low-level interaction. A key component is a dynamic labeling engine, implemented as a browser extension, that generates real-time labels for interactive elements, creating mapping between voice commands and Document Object Model (DOM) components. Preliminary evaluations show that WebNav outperforms traditional screen readers in response time and task completion accuracy for the visually impaired. Future work will focus on extensive user evaluations, benchmark development, and refining the agent's adaptive capabilities for real-world deployment.
Abstract（参考訳）: Webインターフェースへの依存度の増加は、視覚障害者に多くの課題をもたらし、より高度な補助技術の必要性を示している。本稿では、ReActにインスパイアされたアーキテクチャと生成AIを活用して、このフレームワークを提供する音声制御WebナビゲーションエージェントであるWebNavを紹介する。 WebNavは階層構造で構成されており、高レベルの戦略的計画のためのDIGNAV(Digital Navigation Module)、抽象的なコマンドを実行可能なアクションに変換するAssistant Module、低レベルのインタラクションのための推論モジュールである。主要なコンポーネントは動的ラベルエンジンで、ブラウザ拡張として実装され、インタラクティブな要素のためのリアルタイムラベルを生成し、音声コマンドとドキュメントオブジェクトモデル(DOM)コンポーネント間のマッピングを作成する。予備評価では、WebNavは、視覚障害者に対する応答時間とタスク完了精度において、従来のスクリーンリーダーよりも優れていた。今後の作業は、広範なユーザ評価、ベンチマーク開発、およびエージェントの現実のデプロイメントへの適応能力の強化に焦点を当てる予定である。

関連論文リスト

R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文参考訳（メタデータ） (2025-01-21T20:21:58Z)
PAFFA: Premeditated Actions For Fast Agents [23.363582411971567]
PAFFAは、再利用可能な、検証済みのブラウザインタラクション関数のAction API Libraryを通じて、Webインタラクション機能を強化するように設計されたフレームワークである。 Webサイト構造が進化しても、堅牢なパフォーマンスを維持しながら、推論コールを87%削減する。このフレームワークはマルチページタスクの実行を加速し、自律的なWebエージェントの研究を進めるためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2024-12-10T22:51:31Z)
Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文参考訳（メタデータ） (2024-11-05T17:40:03Z)
From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents [7.41862656697588]
本研究の目的は,Webナビゲーションエージェントの機能に不可欠な様々なコンテキスト要素を解析することである。インタラクション履歴とWebページ表現の影響に焦点を当てる。当社の作業は、アウト・オブ・ディストリビューションシナリオにおけるエージェントパフォーマンスの向上を強調しています。
論文参考訳（メタデータ） (2024-10-31T01:51:41Z)
Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文参考訳（メタデータ） (2024-10-24T18:01:28Z)
Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。 LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文参考訳（メタデータ） (2024-10-16T01:37:58Z)
Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文参考訳（メタデータ） (2024-09-23T18:06:32Z)
NaviQAte: Functionality-Guided Web Application Navigation [6.0759036120654315]
NaviQAteは、Webアプリケーションの探索を質問と回答のタスクとして捉え、詳細なパラメータを必要とせずに機能のためのアクションシーケンスを生成する。我々の3段階のアプローチでは、GPT-4oのような先進的な言語モデルを用いて複雑な意思決定を行い、GPT-4o miniのようなコスト効率のよいモデルを用いる。
論文参考訳（メタデータ） (2024-09-16T21:18:39Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文参考訳（メタデータ） (2024-06-28T08:28:38Z)
On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文参考訳（メタデータ） (2024-02-23T02:18:12Z)
Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文参考訳（メタデータ） (2024-02-07T21:08:49Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-10-20T11:10:14Z)
Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。 ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文参考訳（メタデータ） (2023-10-12T01:17:56Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。 AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文参考訳（メタデータ） (2022-10-14T16:35:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。