論文の概要: WebGraphEval: Multi-Turn Trajectory Evaluation for Web Agents using Graph Representation
- arxiv url: http://arxiv.org/abs/2510.19205v1
- Date: Wed, 22 Oct 2025 03:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.024812
- Title: WebGraphEval: Multi-Turn Trajectory Evaluation for Web Agents using Graph Representation
- Title(参考訳): WebGraphEval:グラフ表現を用いたWebエージェントのマルチスレッド軌道評価
- Authors: Yaoyao Qian, Yuanli Wang, Jinda Zhang, Yun Zong, Meixu Chen, Hanhan Zhou, Jindan Huang, Yifan Zeng, Xinyu Hu, Chan Hee Song, Danqing Zhang,
- Abstract要約: WebGraphEvalは、複数のエージェントからのトラジェクトリを統一された重み付けされたアクショングラフに抽象化するフレームワークである。
我々は、WebGraphEvalが、モデル間の規則性をキャプチャし、冗長性と非効率性を強調し、結果に基づくメトリクスによって見落とされた決定ポイントを特定する。
- 参考スコア(独自算出の注目度): 13.14840279219976
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current evaluation of web agents largely reduces to binary success metrics or conformity to a single reference trajectory, ignoring the structural diversity present in benchmark datasets. We present WebGraphEval, a framework that abstracts trajectories from multiple agents into a unified, weighted action graph. This representation is directly compatible with benchmarks such as WebArena, leveraging leaderboard runs and newly collected trajectories without modifying environments. The framework canonically encodes actions, merges recurring behaviors, and applies structural analyses including reward propagation and success-weighted edge statistics. Evaluations across thousands of trajectories from six web agents show that the graph abstraction captures cross-model regularities, highlights redundancy and inefficiency, and identifies critical decision points overlooked by outcome-based metrics. By framing web interaction as graph-structured data, WebGraphEval establishes a general methodology for multi-path, cross-agent, and efficiency-aware evaluation of web agents.
- Abstract(参考訳): Webエージェントの現在の評価は、ベンチマークデータセットに存在する構造的多様性を無視して、バイナリ成功メトリクスや単一の参照軌跡への適合性を大幅に低下させる。
WebGraphEvalは、複数のエージェントからのトラジェクトリを統一された重み付けされたアクショングラフに抽象化するフレームワークである。
この表現は、WebArenaのようなベンチマークと直接互換性があり、環境を変更することなく、リーダボードの実行と新たに収集されたトラジェクトリを活用する。
このフレームワークは、アクションをカノニカルにエンコードし、繰り返し発生する振る舞いをマージし、報酬の伝播や成功重み付けされたエッジ統計を含む構造解析を適用する。
6つのWebエージェントからの何千ものトラジェクトリに対する評価は、グラフ抽象化がモデル間の規則性をキャプチャし、冗長性と非効率性を強調し、結果ベースのメトリクスによって見落とされた決定ポイントを特定することを示している。
WebGraphEvalは、グラフ構造化データとしてWebインタラクションをフレーミングすることで、Webエージェントのマルチパス、クロスエージェント、効率性を考慮した評価のための一般的な方法論を確立します。
関連論文リスト
- Resource-Aware Neural Network Pruning Using Graph-based Reinforcement Learning [0.8890833546984916]
本稿では,グラフベースの観測空間をAutoMLフレームワークに統合することで,ニューラルネットワークのプルーニングに新たなアプローチを提案する。
本フレームワークは,対象ニューラルネットワークのグラフ表現を導入することにより,刈り込み処理を変換する。
作用空間に対しては、連続プルーニング比から細粒な二分作用空間へ遷移する。
論文 参考訳(メタデータ) (2025-09-04T15:05:05Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - Rethinking Link Prediction for Directed Graphs [73.36395969796804]
有向グラフのリンク予測は、様々な現実世界のアプリケーションにとって重要な課題である。
埋め込み手法とグラフニューラルネットワーク(GNN)の最近の進歩は、有望な改善を示している。
本稿では,既存手法の表現性を評価する統一的なフレームワークを提案し,二重埋め込みとデコーダ設計がリンクの有向予測性能に与える影響を強調した。
論文 参考訳(メタデータ) (2025-02-08T23:51:05Z) - Representing Web Applications As Knowledge Graphs [0.0]
提案手法は、各ノードをアプリケーションの現在の状態の構造化された表現としてモデル化し、エッジはユーザ主導のアクションや遷移を反映する。
この構造化された表現は、Webアプリケーションのより包括的で機能的な理解を可能にし、自動テストや振る舞い分析といった下流タスクに貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-06T02:50:41Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Mutually exciting point process graphs for modelling dynamic networks [0.0]
相互励起点過程グラフ(MEG)と呼ばれる動的ネットワークのための新しいモデルのクラスが提案される。
MEGは、Dyadicマーク付きポイントプロセスのためのスケーラブルなネットワークワイド統計モデルであり、異常検出に使用できる。
このモデルはシミュレーショングラフと実世界のコンピュータネットワークデータセット上でテストされ、優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-11T10:14:55Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。