論文の概要: A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2605.00551v1
- Date: Fri, 01 May 2026 10:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.925661
- Title: A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction
- Title(参考訳): A11y-Compressor:ビジュアルコンテキスト再構成と冗長化によるGUIエージェント観測の効率向上のためのフレームワーク
- Authors: Michito Takeshita, Takuro Kawada, Takumi Ohashi, Shunsuke Kitada, Hitoshi Iyatomi,
- Abstract要約: A11y-Compressorは、線形化アクセシビリティツリーをコンパクトで構造化された表現に変換するフレームワークである。
実装であるCompressed-a11yは、モーダル検出、冗長化、セマンティック構造化を備えた軽量で構造化されたトランスフォーメーションパイプラインを適用している。
- 参考スコア(独自算出の注目度): 2.5391024490689538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents that interact with graphical user interfaces (GUIs) require effective observation representations for reliable grounding. The accessibility tree is a commonly used text-based format that encodes UI element attributes, but it suffers from redundancy and lacks structural information such as spatial relationships among elements. We propose A11y-Compressor, a framework that transforms linearized accessibility trees into compact and structured representations. Our implementation, Compressed-a11y, applies a lightweight and structured transformation pipeline with modal detection, redundancy reduction, and semantic structuring. Experiments on the OSWorld benchmark show that Compressed-a11y reduces input tokens to 22% of the original while improving task success rates by 5.1 percentage points on average.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)と対話するAIエージェントは、信頼できる接地のために効果的な観察表現を必要とする。
アクセシビリティツリーは、UI要素の属性を符号化する一般的なテキストベースのフォーマットであるが、冗長性に悩まされ、要素間の空間的関係のような構造情報がない。
線形化アクセシビリティツリーをコンパクトかつ構造化された表現に変換するフレームワークであるA11y-Compressorを提案する。
実装であるCompressed-a11yは、モーダル検出、冗長化、セマンティック構造化を備えた軽量で構造化されたトランスフォーメーションパイプラインを適用している。
OSWorldベンチマークの実験によると、Compressed-a11yは入力トークンを元の22%に減らし、タスク成功率を平均5.1ポイント改善している。
関連論文リスト
- Arbor: A Framework for Reliable Navigation of Critical Conversation Flows [0.19573380763700712]
本稿では,決定木ナビゲーションを専門的なノードレベルのタスクに分解するフレームワークであるArborを紹介する。
Abortは平均ターン精度を29.4ポイント改善し、ターン毎のレイテンシを57.1%削減し、ターン毎のコストを平均14.4倍削減する。
論文 参考訳(メタデータ) (2026-02-16T11:09:02Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - UISearch: Graph-Based Embeddings for Multimodal Enterprise UI Screenshots Retrieval [1.3563834727527375]
本稿では,UIスクリーンショットを階層関係や空間配置を符号化した属性グラフに変換するグラフベース表現を提案する。
対照的なグラフオートエンコーダは、視覚的、構造的、意味的な特性にまたがる多レベル類似性を保存する埋め込みを学習する。
この表現を,構成可能なクエリ言語による構造埋め込みとセマンティック検索を組み合わせたマルチモーダル検索フレームワークであるUISearchに実装する。
論文 参考訳(メタデータ) (2025-11-24T18:20:08Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。