論文の概要: Turbocharging Web Automation: The Impact of Compressed History States
- arxiv url: http://arxiv.org/abs/2507.21369v1
- Date: Mon, 28 Jul 2025 22:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.363403
- Title: Turbocharging Web Automation: The Impact of Compressed History States
- Title(参考訳): ターボチャージによるWeb自動化 - 圧縮された履歴状態の影響
- Authors: Xiyue Zhu, Peng Tang, Haofu Liao, Srikar Appalaraju,
- Abstract要約: 本稿では, 履歴状態を用いたターボチャージウェブ自動化のための新しいWeb履歴圧縮手法を提案する。
提案手法では,各履歴状態から最大タスク関連情報を一定長のショート表現に蒸留するヒストリコンプレッサーモジュールを用いる。
- 参考スコア(独自算出の注目度): 12.837462917122565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have led to a leap forward in web automation. The current web automation approaches take the current web state, history actions, and language instruction as inputs to predict the next action, overlooking the importance of history states. However, the highly verbose nature of web page states can result in long input sequences and sparse information, hampering the effective utilization of history states. In this paper, we propose a novel web history compressor approach to turbocharge web automation using history states. Our approach employs a history compressor module that distills the most task-relevant information from each history state into a fixed-length short representation, mitigating the challenges posed by the highly verbose history states. Experiments are conducted on the Mind2Web and WebLINX datasets to evaluate the effectiveness of our approach. Results show that our approach obtains 1.2-5.4% absolute accuracy improvements compared to the baseline approach without history inputs.
- Abstract(参考訳): 言語モデルは、Webオートメーションの飛躍的な進歩につながった。
現在のWeb自動化アプローチでは、現在のWeb状態、履歴アクション、言語命令を入力として、履歴状態の重要性を見越して次のアクションを予測する。
しかし、Webページ状態の非常に冗長な性質は、長い入力シーケンスとスパース情報をもたらし、履歴状態の有効利用を妨げる。
本稿では,歴史状態を用いたターボチャージWeb自動化のための新しいWeb履歴圧縮手法を提案する。
提案手法では,各履歴状態から最もタスク関連のある情報を一定の長さのショート表現に蒸留するヒストリコンプレッサーモジュールを用いて,高度に冗長なヒストリステートによって引き起こされる課題を緩和する。
提案手法の有効性を評価するため,Mind2WebおよびWebLINXデータセットを用いて実験を行った。
その結果, 履歴入力のないベースライン手法と比較して, 1.2-5.4%の絶対精度向上が得られた。
関連論文リスト
- Bridge the Gap between Past and Future: Siamese Model Optimization for Context-Aware Document Ranking [27.82131411594034]
セッションコンテキストを活用することは、ユーザの検索意図とドキュメントのランキングを推測する上で有益であることが証明されている。
これらの進歩にもかかわらず、ユーザ意図の進化を捉えるための歴史的なセッションデータの制限は依然として課題である。
本稿では,履歴条件付きモデルと将来意識型モデルからなるシアムモデル最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T10:36:25Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - HIPTrack: Visual Tracking with Historical Prompts [37.85656595341516]
シームズパラダイムに忠実かつ更新された履歴情報を追従するトラッカーを提供することにより,大幅な性能向上が達成できることを示す。
我々は,履歴プロンプトネットワークに基づくHIPTrackと呼ばれる新しいトラッカーを構築し,モデル全体を再トレーニングすることなく,大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2023-11-03T17:54:59Z) - WebWISE: Web Interface Control and Sequential Exploration with Large
Language Models [13.751480639556423]
本稿では,Large Language Model (LLM) を用いて,クリック,スクロール,テキスト入力操作によるWebソフトウェアタスクの自動実行について検討する。
提案手法では,フィルタドキュメンテーションオブジェクトモデル(DOM)要素を観測として使用し,タスクをステップバイステップで実行し,小さなプログラムを逐次生成する。
手動で用意した例から恩恵を受けるか、ゼロショットトライアルの成功に基づいて自動生成する例を例に挙げる。
論文 参考訳(メタデータ) (2023-10-24T17:57:03Z) - RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic
Segmentation [27.308426315113707]
我々は、従来のアプローチ(RECALL)を拡張し、教師なしのWebcrawledデータを活用することで、忘れることに取り組みます。
実験結果から、この拡張アプローチは、特にインクリメンタルシナリオが複数のステップにまたがる場合、顕著な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-09-19T09:50:30Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Dynamic Social Media Monitoring for Fast-Evolving Online Discussions [39.81957479388813]
高速なオンライン議論における関連情報のカバレッジを最大化するための動的キーワード検索手法を提案する。
単語埋め込みモデルを用いてキーワードと予測モデル間の意味関係を表現し、将来の時系列を予測する。
我々は,最近の就任式に関するダイナミックな会話を取り上げ,動的データ収集システムをテストするために,現代のケーススタディを実施している。
論文 参考訳(メタデータ) (2021-02-24T23:00:42Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。