論文の概要: Tuning Qwen2.5-VL to Improve Its Web Interaction Skills
- arxiv url: http://arxiv.org/abs/2604.09571v1
- Date: Fri, 20 Feb 2026 13:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.507035
- Title: Tuning Qwen2.5-VL to Improve Its Web Interaction Skills
- Title(参考訳): Webインタラクションスキルを改善するQwen2.5-VLのチューニング
- Authors: Alexandra Yakovleva, Henrik Pärssinen, Harri Valpola, Juho Kannala, Alexander Ilin,
- Abstract要約: 我々は、Webベースの制御において利用可能な最強のオープンソースビジョン言語モデルであるQwen2.5-VL-32Bについて検討する。
対象要素の非正確な局在化,カーソルとその相対位置,(ii)指示句に対する感度,(iii)その行動に対する過度な最適化バイアス,の3つの課題を考察した。
トレーニングパイプラインは,(1)カーソルが既に対象の要素上に配置されているか,あるいは移動が必要なのかをモデルに教える,(2)単一コマンドを実行するためのトレーニングを行う,という2つの段階から構成される。
- 参考スコア(独自算出の注目度): 86.49147611872958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have sparked growing interest in using them to automate web tasks, yet their feasibility as independent agents that reason and act purely from visual input remains underexplored. We investigate this setting using Qwen2.5-VL-32B, one of the strongest open-source VLMs available, and focus on improving its reliability in web-based control. Through initial experimentation, we observe three key challenges: (i) inaccurate localization of target elements, the cursor, and their relative positions, (ii) sensitivity to instruction phrasing, and (iii) an overoptimistic bias toward its own actions, often assuming they succeed rather than analyzing their actual outcomes. To address these issues, we fine-tune Qwen2.5-VL-32B for a basic web interaction task: moving the mouse and clicking on a page element described in natural language. Our training pipeline consists of two stages: (1) teaching the model to determine whether the cursor already hovers over the target element or whether movement is required, and (2) training it to execute a single command (a mouse move or a mouse click) at a time, verifying the resulting state of the environment before planning the next action. Evaluated on a custom benchmark of single-click web tasks, our approach increases success rates from 86% to 94% under the most challenging setting.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩により、Webタスクの自動化への関心が高まりつつあるが、視覚入力から純粋に作用する独立したエージェントとしての可能性はまだ未熟である。
利用可能な最強オープンソースVLMの1つであるQwen2.5-VL-32Bを用いて、この設定を調査し、Webベースの制御における信頼性の向上に注力する。
最初の実験を通じて、我々は3つの重要な課題を観察した。
一 対象要素、カーソル及びそれらの相対位置の不正確な位置決め
(二)指示句の表現に対する感度、及び
(三)自己の行動に対する過度に最適化された偏見で、多くの場合、実際の結果を分析するのではなく、成功を仮定する。
これらの問題に対処するために、我々はQwen2.5-VL-32Bを、マウスを動かして自然言語で記述されたページ要素をクリックするという基本的なWebインタラクションタスクのために微調整する。
トレーニングパイプラインは,(1)カーソルが目標要素の上にすでに設置されているか,移動が必要かを決定するためのモデルと,(2)一度に1つのコマンド(マウスの動きやマウスのクリック)を実行するためのトレーニングと,次のアクションを計画する前に環境の結果としての状態を検証する2つの段階から構成される。
シングルクリックのWebタスクのカスタムベンチマークに基づいて評価し、最も難しい条件下では、私たちのアプローチは成功率を86%から94%に向上させます。
関連論文リスト
- ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation [52.94334113271359]
ActiveVLAは視覚言語によるアクションフレームワークで、ロボットに高い精度できめ細かな操作を可能にする。
我々は,ActiveVLAが3つのシミュレーションベンチマークで高精度な3D操作を実現し,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-13T08:29:07Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Learning Value Functions from Undirected State-only Experience [17.76847333440422]
離散決定過程 (MDP) におけるマルコフ・クラーニング(英語版)は、作用空間の任意の洗練の下で同じ値関数を学習することを示す。
この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。
LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。