論文の概要: ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2605.11212v2
- Date: Wed, 13 May 2026 16:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.876169
- Title: ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
- Title(参考訳): ReVision: 時間的視覚冗長化によるコンピュータ利用エージェントのスケーリング
- Authors: Amirhossein Abaskohi, Yuhang He, Peter West, Giuseppe Carenini, Pranit Chawla, Vibhav Vineet,
- Abstract要約: ReVisionは、冗長な視覚的パッチを削除するトラジェクトリ上で、マルチモーダル言語モデルをトレーニングするために使用される。
ReVisionはトークン使用率を平均で46%削減し,無ドロップベースラインでの成功率を3%向上することを示した。
このことは、視覚史において一般的に見られる飽和は、過去の情報の有用性の制限によるものではなく、むしろ非効率なトークン表現の結果によるものであることを示唆している。
- 参考スコア(独自算出の注目度): 46.69118032596015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) rely on visual observations of graphical user interfaces, where each screenshot is encoded into a large number of visual tokens. As interaction trajectories grow, the token cost increases rapidly, limiting the amount of history that can be incorporated under fixed context and compute budgets. This has resulted in no or very limited improvement in the performance when using history unlike other domains. We address this inefficiency by introducing ReVision, which is used to train multimodal language models on trajectories where redundant visual patches are removed using a learned patch selector that compares patch representations across consecutive screenshots while preserving spatial structure required by the model. Across three benchmarks, OSWorld, WebTailBench, and AgentNetBench, when processing trajectories with 5 history screenshots using Qwen2.5-VL-7B, ReVision reduces token usage by approximately 46% on average while improving success rate by 3% over the no drop baseline. This establishes a clear efficiency gain, enabling agents to process longer trajectories with fewer tokens. With this improved efficiency, we revisit the role of history in CUAs and find that performance continues to improve as more past observations are incorporated when redundancy is removed. This suggests that the commonly observed saturation in visual history is not due to limited usefulness of past information, but rather a consequence of inefficient token representations.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)はグラフィカルユーザインタフェースの視覚的観察に依存しており、各スクリーンショットは多数のビジュアルトークンにエンコードされる。
相互作用軌跡が大きくなるにつれて、トークンコストは急速に増加し、固定されたコンテキストと計算予算の下で組み込むことができる履歴の量を制限する。
これにより、他のドメインとは異なり、履歴を使用する場合のパフォーマンスが、あるいは非常に改善された。
この非効率性にはReVisionを導入することで対処する。これは、冗長な視覚パッチを除去するトラジェクトリ上でマルチモーダル言語モデルをトレーニングするために、連続するスクリーンショット間でパッチ表現を比較しながら、モデルに必要な空間構造を保存しながら、学習したパッチセレクタを用いて、この非効率性に対処する。
OSWorld、WebTailBench、AgenerNetBenchの3つのベンチマークで、Qwen2.5-VL-7Bを使用して5つの履歴スクリーンショットでトラジェクトリを処理する場合、ReVisionは平均でトークン使用率を46%削減し、無ドロップベースラインよりも3%改善した。
これにより明確な効率向上が確立され、より少ないトークンで長いトラジェクトリを処理できるようになる。
この効率の改善により、CUAにおける履歴の役割を再考し、冗長性を取り除いた場合に過去の観測が組み込まれ、性能が向上し続けることを確認する。
このことは、視覚史において一般的に見られる飽和は、過去の情報の有用性の制限によるものではなく、むしろ非効率なトークン表現の結果によるものであることを示唆している。
関連論文リスト
- Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives [20.029839773427298]
GUIシナリオにおける過去のスクリーンショットに対するトークンプルーニングについて検討する。
GUIスクリーンショットには,前景と背景のセマンティックな構成が特徴的であることがわかった。
また,GUIエージェントが人間の認知に類似した再発効果を示すことも観察した。
論文 参考訳(メタデータ) (2026-03-27T03:21:19Z) - How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need? [56.09721366421187]
トークンは極めて冗長であり、実質的な非効率性をもたらすことを示す。
本稿では,最大90~95%のトークン数を削減できるグローバルなグラフトークンマージ手法であるgitmerge3Dを紹介する。
この研究は、大規模な3Dトランスフォーマーモデルの冗長性を初めて評価し、より効率的な3D基盤アーキテクチャの開発に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-11-07T17:38:01Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Explicit Visual Prompts for Visual Object Tracking [23.561539973210248]
textbfEVPTrackは、連続するフレーム間の明示的な視覚的プロンプトを利用するビジュアルトラッキングフレームワークである。
我々は,明示的情報とマルチスケール情報の両方を活用することで,リアルタイムに競争性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-01-06T07:12:07Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。