論文の概要: RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users
- arxiv url: http://arxiv.org/abs/2504.10445v1
- Date: Mon, 14 Apr 2025 17:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:17.367300
- Title: RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users
- Title(参考訳): RealWeb Assist: リアルタイムユーザによる長期Webアシストのためのベンチマーク
- Authors: Suyu Ye, Haojun Shi, Darren Shih, Hyokun Yun, Tanya Roosta, Tianmin Shu,
- Abstract要約: RealWebAssistは、Webとの長い水平相互作用を含む現実的なシナリオにおいて、シーケンシャルなインストラクションフォローを評価するために設計された新しいベンチマークである。
各ユーザはWebベースのアシスタントに、複数のWebサイト上で一連のタスクを実行するように指示する。
成功したエージェントは、それぞれの命令の背後にある真の意図を推論し、ユーザの精神状態を追跡し、ユーザ固有のルーチンを理解し、意図したタスクを正しいGUI要素に基づいて実行しなければなりません。
- 参考スコア(独自算出の注目度): 8.044364097415007
- License:
- Abstract: To achieve successful assistance with long-horizon web-based tasks, AI agents must be able to sequentially follow real-world user instructions over a long period. Unlike existing web-based agent benchmarks, sequential instruction following in the real world poses significant challenges beyond performing a single, clearly defined task. For instance, real-world human instructions can be ambiguous, require different levels of AI assistance, and may evolve over time, reflecting changes in the user's mental state. To address this gap, we introduce RealWebAssist, a novel benchmark designed to evaluate sequential instruction-following in realistic scenarios involving long-horizon interactions with the web, visual GUI grounding, and understanding ambiguous real-world user instructions. RealWebAssist includes a dataset of sequential instructions collected from real-world human users. Each user instructs a web-based assistant to perform a series of tasks on multiple websites. A successful agent must reason about the true intent behind each instruction, keep track of the mental state of the user, understand user-specific routines, and ground the intended tasks to actions on the correct GUI elements. Our experimental results show that state-of-the-art models struggle to understand and ground user instructions, posing critical challenges in following real-world user instructions for long-horizon web assistance.
- Abstract(参考訳): 長期にわたるWebベースのタスクでのアシストを成功させるためには、AIエージェントは、長期間にわたって現実世界のユーザ命令をシーケンシャルに追跡できなければならない。
既存のWebベースのエージェントベンチマークとは異なり、実世界でのシーケンシャルなインストラクションは、1つの明確に定義されたタスクを実行すること以上の大きな課題を生じさせる。
例えば、現実世界の人間の指示は曖昧であり、異なるレベルのAIアシストを必要とし、時間の経過とともにユーザーの精神状態の変化を反映して進化する可能性がある。
このギャップに対処するために、Webとの長時間のインタラクション、ビジュアルGUIの接地、曖昧な現実世界のユーザ命令の理解といった現実的なシナリオにおいて、シーケンシャルなインストラクションフォローを評価するために設計された新しいベンチマークであるRealWebAssistを紹介する。
RealWebAssistには、現実世界の人間のユーザから収集されたシーケンシャルな命令のデータセットが含まれている。
各ユーザはWebベースのアシスタントに、複数のWebサイト上で一連のタスクを実行するように指示する。
成功したエージェントは、それぞれの命令の背後にある真の意図を推論し、ユーザの精神状態を追跡し、ユーザ固有のルーチンを理解し、意図したタスクを正しいGUI要素に基づいて実行しなければなりません。
実験の結果,最先端のモデルではユーザからの指示を理解するのに苦労しており,リアルタイムのユーザによるウェブ支援に追随する上で重要な課題を呈していることがわかった。
関連論文リスト
- Large Language Models Empowered Personalized Web Agents [54.944908837494374]
Webエージェントは、従来のエージェントから、LLM(Large Language Models)ベースのWebエージェントへと進化してきた。
まず, LLMを活用したパーソナライズされたWebエージェントのタスクを定式化し, パーソナライズされたデータとユーザ指示を統合する。
我々はパーソナライズされたユーザメモリ拡張アライメント(PUMA)フレームワークを提案し、パーソナライズされたWebエージェントタスクにLLMを適用する。
論文 参考訳(メタデータ) (2024-10-22T17:54:45Z) - Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文 参考訳(メタデータ) (2024-10-16T01:37:58Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - User Modeling Challenges in Interactive AI Assistant Systems [3.1204913702660475]
Interactive Artificial Intelligent(AI)アシスタントシステムは、人間が様々なタスクを完了するのを助けるタイムリーなガイダンスを提供するように設計されている。
残りの課題の1つは、よりパーソナライズされたガイダンスのために、タスク中のユーザの精神状態を理解することである。
本研究では,タスク実行中のユーザの精神状態を分析し,よりパーソナライズされたユーザガイダンスのために,大規模言語モデルがユーザプロファイルを解釈する能力と課題について検討する。
論文 参考訳(メタデータ) (2024-03-29T11:54:13Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Task Relation-aware Continual User Representation Learning [26.514449669395297]
ユーザモデリングにおけるこれまでの取り組みは、主に1つのタスク用に設計されたタスク固有のユーザ表現の学習に焦点を当てていた。
近年の研究では、様々なタスクに関連するユーザのより一般化された表現であるユニバーサルユーザ表現の概念が紹介されている。
その効果にもかかわらず、普遍的なユーザ表現を学習するための既存のアプローチは、現実世界のアプリケーションでは実用的ではない。
本稿では,学習タスク数が増加するにつれて,学習能力が制限されない,TERACONと呼ばれる新しい連続的ユーザ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T08:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。