論文の概要: See, Think, Act: Online Shopper Behavior Simulation with VLM Agents
- arxiv url: http://arxiv.org/abs/2510.19245v1
- Date: Wed, 22 Oct 2025 05:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.129711
- Title: See, Think, Act: Online Shopper Behavior Simulation with VLM Agents
- Title(参考訳): VLMエージェントを用いたオンライン買い物行動シミュレーション
- Authors: Yimeng Zhang, Jiri Gesi, Ran Xue, Tian Wang, Ziyi Wang, Yuxuan Lu, Sinong Zhan, Huimin Zeng, Qingjun Cui, Yufan Guo, Jing Huang, Mubarak Shah, Dakuo Wang,
- Abstract要約: 本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
- 参考スコア(独自算出の注目度): 58.92444959954643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have recently demonstrated strong potential in simulating online shopper behavior. Prior work has improved action prediction by applying SFT on action traces with LLM-generated rationales, and by leveraging RL to further enhance reasoning capabilities. Despite these advances, current approaches rely on text-based inputs and overlook the essential role of visual perception in shaping human decision-making during web GUI interactions. In this paper, we investigate the integration of visual information, specifically webpage screenshots, into behavior simulation via VLMs, leveraging OPeRA dataset. By grounding agent decision-making in both textual and visual modalities, we aim to narrow the gap between synthetic agents and real-world users, thereby enabling more cognitively aligned simulations of online shopping behavior. Specifically, we employ SFT for joint action prediction and rationale generation, conditioning on the full interaction context, which comprises action history, past HTML observations, and the current webpage screenshot. To further enhance reasoning capabilities, we integrate RL with a hierarchical reward structure, scaled by a difficulty-aware factor that prioritizes challenging decision points. Empirically, our studies show that incorporating visual grounding yields substantial gains: the combination of text and image inputs improves exact match accuracy by more than 6% over text-only inputs. These results indicate that multi-modal grounding not only boosts predictive accuracy but also enhances simulation fidelity in visually complex environments, which captures nuances of human attention and decision-making that text-only agents often miss. Finally, we revisit the design space of behavior simulation frameworks, identify key methodological limitations, and propose future research directions toward building efficient and effective human behavior simulators.
- Abstract(参考訳): LLMは近年、オンライン買い物客の行動をシミュレートする強力な可能性を示している。
従来の研究は、LLM生成論理を用いた行動トレースにSFTを適用し、RLを活用して推論能力をさらに向上することで、行動予測を改善した。
これらの進歩にもかかわらず、現在のアプローチはテキストベースの入力に依存しており、Web GUIインタラクションにおいて人間の意思決定を形作る上で視覚的知覚が不可欠な役割を軽視している。
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討し,OPeRAデータセットを活用する。
テキスト・ビジュアル・モダリティの両面でエージェントの意思決定を基礎にすることで,合成エージェントと実世界のユーザとのギャップを狭め,オンラインショッピング行動のより認知的に整合したシミュレーションを可能にする。
具体的には、アクション履歴、過去のHTML観察、現在のWebページのスクリーンショットを含む、完全なインタラクションコンテキストの条件付け、共同アクション予測と合理化生成にSFTを用いる。
推論能力をさらに強化するため,難易度を優先する難易度因子によってスケールされた階層的な報酬構造とRLを統合した。
テキストと画像の入力の組み合わせは、テキストのみの入力よりも精度を6%以上向上させる。
これらの結果は,マルチモーダルグラウンド化が予測精度を高めるだけでなく,視覚的に複雑な環境におけるシミュレーションの忠実度を高めることを示し,テキストのみのエージェントがしばしば見逃すような人間の注意や意思決定のニュアンスを捉える。
最後に、行動シミュレーションフレームワークの設計空間を再考し、重要な方法論的制約を特定し、効率的で効果的な人間の行動シミュレータ構築に向けた今後の研究方向を提案する。
関連論文リスト
- Dyna-Mind: Learning to Simulate from Experience for Better AI Agents [62.21219817256246]
私たちは、現在のAIエージェントは、行動する前に、別の未来を精神的にシミュレートする能力である「悪意ある試行錯誤」を必要としていると論じます。
我々は、(V)LMエージェントに対して、そのようなシミュレーションを推論に組み込むように明示的に教える2段階のトレーニングフレームワークであるDyna-Mindを紹介した。
論文 参考訳(メタデータ) (2025-10-10T17:30:18Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap [6.393953433174051]
本稿では,実際のデータギャップに対処するための新しい視点を提案する。
自律運転環境における実シミュレーションデータギャップの大規模調査を初めて実施する。
シミュレーションデータに対するモデルロバスト性は顕著に向上し,実世界の性能も向上した。
論文 参考訳(メタデータ) (2024-03-24T11:09:41Z) - INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。
本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-04T19:56:18Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。