Fugu-MT 論文翻訳(概要): From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents

論文の概要: From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents

arxiv url: http://arxiv.org/abs/2410.23555v1
Date: Thu, 31 Oct 2024 01:51:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.624885
Title: From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents
Title（参考訳）: 状況から行動へ:多言語Webナビゲーションエージェントの一般化における状態表現と文脈の影響の分析
Authors: Nalin Tiwary, Vardhan Dongre, Sanil Arun Chawla, Ashwin Lamani, Dilek Hakkani-Tür,
Abstract要約: 本研究の目的は,Webナビゲーションエージェントの機能に不可欠な様々なコンテキスト要素を解析することである。インタラクション履歴とWebページ表現の影響に焦点を当てる。当社の作業は、アウト・オブ・ディストリビューションシナリオにおけるエージェントパフォーマンスの向上を強調しています。
参考スコア（独自算出の注目度）: 7.41862656697588
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Large Language Model (LLM)-based frameworks have extended their capabilities to complex real-world applications, such as interactive web navigation. These systems, driven by user commands, navigate web browsers to complete tasks through multi-turn dialogues, offering both innovative opportunities and significant challenges. Despite the introduction of benchmarks for conversational web navigation, a detailed understanding of the key contextual components that influence the performance of these agents remains elusive. This study aims to fill this gap by analyzing the various contextual elements crucial to the functioning of web navigation agents. We investigate the optimization of context management, focusing on the influence of interaction history and web page representation. Our work highlights improved agent performance across out-of-distribution scenarios, including unseen websites, categories, and geographic locations through effective context management. These findings provide insights into the design and optimization of LLM-based agents, enabling more accurate and effective web navigation in real-world applications.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのフレームワークの最近の進歩は、インタラクティブなWebナビゲーションのような複雑な現実世界のアプリケーションにその能力を拡張した。ユーザコマンドによって駆動されるこれらのシステムは、Webブラウザをナビゲートしてマルチターン対話を通じてタスクを完了し、革新的な機会と重要な課題を提供する。対話型Webナビゲーションのベンチマークが導入されたにも拘わらず、これらのエージェントの性能に影響を与える重要なコンテキストコンポーネントの詳細な理解はいまだに解明されていない。本研究の目的は,Webナビゲーションエージェントの機能に不可欠な様々なコンテキスト要素を解析することによって,このギャップを埋めることである。本稿では,インタラクション履歴とWebページ表現の影響に着目し,コンテキスト管理の最適化について検討する。本研究は,効果的なコンテキスト管理を通じて,見知らぬWebサイト,カテゴリ,地理的位置を含む,配布外シナリオにおけるエージェント性能の向上を強調した。これらの知見は、LLMベースのエージェントの設計と最適化に関する洞察を与え、現実世界のアプリケーションにおいてより正確で効果的なWebナビゲーションを可能にする。

関連論文リスト

Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation [11.23342183103283]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。本稿では,視覚的観察,言語指導,ナビゲーション履歴の推論能力を高めるため,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
論文参考訳（メタデータ） (2025-04-23T08:41:27Z)
Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文参考訳（メタデータ） (2025-04-16T05:41:20Z)
WebNav: An Intelligent Agent for Voice-Controlled Web Navigation [0.0]
WebNavは、ReActにインスパイアされたアーキテクチャと生成AIを活用して、このフレームワークを提供する音声制御Webナビゲーションエージェントである。予備評価では、WebNavは、視覚障害者に対する応答時間とタスク完了精度において、従来のスクリーンリーダーよりも優れていた。
論文参考訳（メタデータ） (2025-03-18T02:33:27Z)
R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文参考訳（メタデータ） (2025-01-21T20:21:58Z)
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文参考訳（メタデータ） (2024-12-07T06:12:53Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Representing Web Applications As Knowledge Graphs [0.0]
提案手法は、各ノードをアプリケーションの現在の状態の構造化された表現としてモデル化し、エッジはユーザ主導のアクションや遷移を反映する。この構造化された表現は、Webアプリケーションのより包括的で機能的な理解を可能にし、自動テストや振る舞い分析といった下流タスクに貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-10-06T02:50:41Z)
A Learnable Agent Collaboration Network Framework for Personalized Multimodal AI Search Engine [14.123823081267336]
本稿では,Agent Collaboration Network (ACN) と呼ばれる新しいAI検索エンジンフレームワークを提案する。 ACNフレームワークは、複数の専門エージェントが協力して作業し、それぞれがアカウントマネージャ、ソリューションストラテジスト、情報マネージャ、コンテンツクリエータといった異なる役割を担っている。 ACNの特長は、エージェント間のオンライン相乗的調整をサポートする反射フォワード最適化法(RFO)の導入である。
論文参考訳（メタデータ） (2024-09-01T07:01:22Z)
Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文参考訳（メタデータ） (2024-08-27T13:50:37Z)
AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文参考訳（メタデータ） (2024-08-05T06:31:39Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文参考訳（メタデータ） (2024-02-23T02:18:12Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-10-20T11:10:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。