論文の概要: How do Visual Attributes Influence Web Agents? A Comprehensive Evaluation of User Interface Design Factors
- arxiv url: http://arxiv.org/abs/2601.21961v1
- Date: Thu, 29 Jan 2026 16:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.002944
- Title: How do Visual Attributes Influence Web Agents? A Comprehensive Evaluation of User Interface Design Factors
- Title(参考訳): ビジュアル属性はWebエージェントにどのように影響するか? ユーザインタフェース設計因子の総合的評価
- Authors: Kuai Yu, Naicheng Yu, Han Wang, Rui Yang, Huan Zhang,
- Abstract要約: Webページの視覚属性因子がWebエージェントの意思決定にどのように影響するかを定量化するパイプラインであるVAFを紹介する。
VAFは、 (i) 変動生成、 (ii) ブラウジング相互作用、 (iii) クリックアクションとエージェントからの推論の両方を通して検証する3つのステージから構成される。
原型と変種の違いを定量的に測定することにより、どの視覚特性がエージェントの行動に最も影響するかを識別する。
- 参考スコア(独自算出の注目度): 12.445105236386008
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Web agents have demonstrated strong performance on a wide range of web-based tasks. However, existing research on the effect of environmental variation has mostly focused on robustness to adversarial attacks, with less attention to agents' preferences in benign scenarios. Although early studies have examined how textual attributes influence agent behavior, a systematic understanding of how visual attributes shape agent decision-making remains limited. To address this, we introduce VAF, a controlled evaluation pipeline for quantifying how webpage Visual Attribute Factors influence web-agent decision-making. Specifically, VAF consists of three stages: (i) variant generation, which ensures the variants share identical semantics as the original item while only differ in visual attributes; (ii) browsing interaction, where agents navigate the page via scrolling and clicking the interested item, mirroring how human users browse online; (iii) validating through both click action and reasoning from agents, which we use the Target Click Rate and Target Mention Rate to jointly evaluate the effect of visual attributes. By quantitatively measuring the decision-making difference between the original and variant, we identify which visual attributes influence agents' behavior most. Extensive experiments, across 8 variant families (48 variants total), 5 real-world websites (including shopping, travel, and news browsing), and 4 representative web agents, show that background color contrast, item size, position, and card clarity have a strong influence on agents' actions, whereas font styling, text color, and item image clarity exhibit minor effects.
- Abstract(参考訳): Webエージェントは、幅広いWebベースのタスクで強いパフォーマンスを示してきた。
しかしながら、環境変動の影響に関する既存の研究は、主に敵の攻撃に対する堅牢性に焦点を合わせており、良質なシナリオにおけるエージェントの嗜好にはあまり関心が向けられていない。
初期の研究では、テキスト的属性がエージェントの行動にどのように影響するかが研究されてきたが、視覚的属性がエージェントの意思決定にどう影響するかについての体系的な理解は依然として限られている。
これを解決するために、Webページの視覚属性因子がWebエージェントの意思決定にどのように影響するかを定量化するための制御された評価パイプラインであるVAFを紹介した。
具体的には、VAFは3つの段階から構成される。
i) 変種生成であって,変種が視覚的属性のみを異にしながら,原項目と同一の意味を共用することを保証するもの
(ii)閲覧操作では、エージェントがスクロールして興味のある項目をクリックして、ユーザがオンラインでどのように閲覧しているかを反映してページをナビゲートする。
3)クリック動作とエージェントからの推論の両方を通じて検証し,視覚特性の効果を共同評価するためにターゲットクリック率とターゲットメンション率を用いた。
原型と変種の違いを定量的に測定することにより、どの視覚特性がエージェントの行動に最も影響するかを識別する。
大規模な実験では、8種類のファミリー(48種類)、5つの現実世界のウェブサイト(ショッピング、旅行、ニュースブラウジングを含む)、4つの代表的ウェブエージェントが背景色コントラスト、アイテムサイズ、位置、カードの明快さがエージェントの行動に強い影響を与える一方で、フォントスタイリング、テキストカラー、アイテムイメージの明快さは小さな効果を示す。
関連論文リスト
- Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent [58.90049897180927]
視覚モデルにおける視覚的特徴の意図しない依存を検出するための自動フレームワークを提案する。
自己反射エージェントは、モデルが依存する可能性のある視覚特性に関する仮説を生成し、テストする。
我々は,視覚特性の多様さを示すために設計された130モデルの新しいベンチマークに対して,我々のアプローチを評価した。
論文 参考訳(メタデータ) (2025-10-24T17:59:02Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Cross-Modal Content Optimization for Steering Web Agent Preferences [16.32764997508559]
項目の視覚的および自然言語的記述に対する知覚不可能な修正を共同で最適化するクロスモーダル・プライス・ステアリング(CPS)を導入する。
我々は,GPT-4.1,Qwen-2.5VL,Pixtral-Largeなど,最先端のプロプライエタリおよびオープンソースVLMをベースとしたエージェント上でのCPSを評価する。
論文 参考訳(メタデータ) (2025-10-04T01:57:20Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Vibe Check: Understanding the Effects of LLM-Based Conversational Agents' Personality and Alignment on User Perceptions in Goal-Oriented Tasks [2.1117030125341385]
大きな言語モデル(LLM)は、会話エージェント(CA)が特有の個性を表現することを可能にする。
本研究では、目標指向タスクにおける人格表現レベルとユーザエージェントの人格アライメントが知覚に与える影響について検討する。
論文 参考訳(メタデータ) (2025-09-11T21:43:49Z) - A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification [56.10719736365069]
我々は,学習した特徴と特定の属性の相互情報として定義された表現性の概念を拡張し,属性のエンコード方法の定量化を行う。
その結果,BMIは最終層において高い表現性を示し,認識におけるその支配的な役割を示していることがわかった。
これらの結果は,ReIDにおける身体属性の中心的役割を示し,属性駆動相関を明らかにするための原則的アプローチを確立した。
論文 参考訳(メタデータ) (2025-03-09T05:15:54Z) - The Impact of Element Ordering on LM Agent Performance [25.738019870722482]
ウェブおよびデスクトップ環境における各種要素順序付け手法の影響について検討する。
我々は, 画素のみの環境において, 次元の減少が実効的な順序付けをもたらすことを見出した。
本手法は,従来の最先端技術と比較して平均2倍以上のタスクを完了させる。
論文 参考訳(メタデータ) (2024-09-18T16:04:10Z) - TransFA: Transformer-based Representation for Face Attribute Evaluation [87.09529826340304]
我々はtextbfTransFA を用いたtextbfattribute 評価のための新しい textbf Transformer 表現を提案する。
提案するTransFAは,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-12T10:58:06Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。