論文の概要: Beyond Pixels: Exploring DOM Downsampling for LLM-Based Web Agents
- arxiv url: http://arxiv.org/abs/2508.04412v1
- Date: Wed, 06 Aug 2025 12:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.725377
- Title: Beyond Pixels: Exploring DOM Downsampling for LLM-Based Web Agents
- Title(参考訳): Beyond Pixels: LLMベースのWebエージェントのためのDOMダウンサンプリングの探索
- Authors: Thassilo M. Schiepanski, Nicholas Piël,
- Abstract要約: 我々は、Webエージェントのための第一種DOMアルゴリズムであるD2Snapを提案する。
GP-4バックエンドに基づいて、オンラインWebMindoデータセットをサンプルしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier LLMs only recently enabled serviceable, autonomous web agents. At that, a model poses as an instantaneous domain model backend. Ought to suggest interaction, it is consulted with a web-based task and respective application state. The key problem lies in application state serialisation $\unicode{x2013}$ referred to as snapshot. State-of-the-art web agents are premised on grounded GUI snapshots, i.e., screenshots enhanced with visual cues. Not least to resemble human perception, but for images representing relatively cheap means of model input. LLM vision still lag behind code interpretation capabilities. DOM snapshots, which structurally resemble HTML, impose a desired alternative. Vast model input token size, however, disables reliable implementation with web agents to date. We propose D2Snap, a first-of-its-kind DOM downsampling algorithm. Based on a GPT-4o backend, we evaluate D2Snap on tasks sampled from the Online-Mind2Web dataset. The success rate of D2Snap-downsampled DOM snapshots (67%) matches a grounded GUI snapshot baseline (65%) $\unicode{x2013}$ within the same input token order of magnitude (1e3). Our best evaluated configurations $\unicode{x2013}$ one token order above, but within the model's context window $\unicode{x2013}$ outperform this baseline by 8%. Our evaluation, moreover, yields that DOM-inherent hierarchy embodies a strong UI feature for LLMs.
- Abstract(参考訳): Frontier LLMは、サービス可能な、自律的なWebエージェントのみを有効にした。
その際、モデルは瞬時にドメインモデルバックエンドとして振る舞う。
インタラクションを提案するために、Webベースのタスクとそれぞれのアプリケーション状態と相談される。
主な問題は、アプリケーションの状態シリアライゼーション$\unicode{x2013}$ スナップショットと呼ばれることだ。
最先端のWebエージェントは、基盤化されたGUIスナップショット、すなわちビジュアルなキューで強化されたスクリーンショットに前提を置いている。
人間の知覚に似るだけでなく、比較的安価なモデル入力の手段を表す画像にも当てはまる。
LLMのビジョンは、コード解釈能力にはまだ遅れています。
DOMスナップショットは、構造的にはHTMLに似ているが、望ましい代替手段を課す。
しかしながら、Vastモデル入力トークンサイズは、Webエージェントによる信頼性のある実装を、これまでは無効にしている。
本稿では,最初のDOMダウンサンプリングアルゴリズムであるD2Snapを提案する。
GPT-4oのバックエンドをベースとして,Online-Mind2Webデータセットからサンプリングしたタスク上でD2Snapを評価する。
D2Snap-downsampled DOMスナップショット(67%)の成功率は、同じ入力トークン順序(1e3)で、GUIスナップショットベースライン(65%)$\unicode{x2013}$と一致する。
最高の評価設定は$\unicode{x2013}$ 1トークンオーダーですが、モデルのコンテキストウィンドウ$\unicode{x2013}$ このベースラインを8%上回っています。
我々の評価は、DOM-inherent階層がLLMの強力なUI特徴を具現化していることを示している。
関連論文リスト
- Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-12-19T18:59:51Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Image2Struct: Benchmarking Structure Extraction for Vision-Language Models [57.531922659664296]
Image2Structは、画像から構造を抽出する際のビジョンピクセルモデル(VLM)を評価するためのベンチマークである。
Image2Structでは、VLMが入力画像から基盤構造を生成するように促される。
そして、構造を描画して出力画像を生成し、入力画像と比較して類似度スコアを生成する。
論文 参考訳(メタデータ) (2024-10-29T18:44:59Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model [90.71963723884944]
テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
DiffAgentは、APIコールを介して、正確な選択を秒単位でスクリーニングするように設計されたエージェントである。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けることがわかった。
論文 参考訳(メタデータ) (2024-03-31T06:28:15Z) - We're Not Using Videos Effectively: An Updated Domain Adaptive Video
Segmentation Baseline [19.098970392639476]
Video-DASの研究は歴史的にImage-DASと異なるベンチマークのセットを最小のベンチマークで研究してきた。
我々は,データとモデルアーキテクチャを慎重に制御した後でも,既存のビデオDASベンチマークにおいて,最先端のImage-DAS法がビデオDAS法より優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-01T18:59:56Z) - M3FGM:a node masking and multi-granularity message passing-based
federated graph model for spatial-temporal data prediction [6.9141842767826605]
本稿では,ノードbfseries Maskingとbfseries Multi-granularity bfseries Message passing-based Federated Graph Model (M$3$FGM) という新しいGNN指向の分割学習手法を提案する。
最初の問題として、M$3$FGMのサーバモデルは、クライアントがオフラインであるケースをシミュレートするためにMaskNodeレイヤを使用している。
また、クライアントモデルのデコーダもデュアルサブデコーダ構造を使用しており、各クライアントモデルはそのローカルデータを使用してオフライン時に独立して予測できる。
論文 参考訳(メタデータ) (2022-10-27T16:59:39Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。