論文の概要: Trifuse: Enhancing Attention-Based GUI Grounding via Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2602.06351v1
- Date: Fri, 06 Feb 2026 03:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.213637
- Title: Trifuse: Enhancing Attention-Based GUI Grounding via Multimodal Fusion
- Title(参考訳): Trifuse:マルチモーダルフュージョンによる注意に基づくGUIグラウンディングの強化
- Authors: Longhui Ma, Di Zhao, Siwei Wang, Zhao Lv, Miao Wang,
- Abstract要約: 既存のアプローチは、ターゲット要素座標を予測するために、微調整された多モーダルな言語モデルに依存している。
近年の注目に基づく代替手法は,タスク固有の微調整を伴わないMLLMの注意機構の局所化信号を利用する。
本稿では,空間的アンカーを明示的に統合したアテンションベースの接地フレームワークであるTrifuseを提案する。
- 参考スコア(独自算出の注目度): 20.165689356521295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI grounding maps natural language instructions to the correct interface elements, serving as the perception foundation for GUI agents. Existing approaches predominantly rely on fine-tuning multimodal large language models (MLLMs) using large-scale GUI datasets to predict target element coordinates, which is data-intensive and generalizes poorly to unseen interfaces. Recent attention-based alternatives exploit localization signals in MLLMs attention mechanisms without task-specific fine-tuning, but suffer from low reliability due to the lack of explicit and complementary spatial anchors in GUI images. To address this limitation, we propose Trifuse, an attention-based grounding framework that explicitly integrates complementary spatial anchors. Trifuse integrates attention, OCR-derived textual cues, and icon-level caption semantics via a Consensus-SinglePeak (CS) fusion strategy that enforces cross-modal agreement while retaining sharp localization peaks. Extensive evaluations on four grounding benchmarks demonstrate that Trifuse achieves strong performance without task-specific fine-tuning, substantially reducing the reliance on expensive annotated data. Moreover, ablation studies reveal that incorporating OCR and caption cues consistently improves attention-based grounding performance across different backbones, highlighting its effectiveness as a general framework for GUI grounding.
- Abstract(参考訳): GUIグラウンディングは、自然言語命令を正しいインターフェイス要素にマッピングし、GUIエージェントの認識基盤として機能する。
既存のアプローチは主に、ターゲット要素座標を予測するために大規模なGUIデータセットを使用して、微調整されたマルチモーダルな言語モデル(MLLM)に依存している。
近年のアテンションベースの代替手段は、タスク固有の微調整をせずにMLLMのアテンション機構のローカライズ信号を利用するが、GUI画像に明示的かつ補完的な空間アンカーが欠如しているため、信頼性が低い。
この制限に対処するために,空間的アンカーを明示的に統合した注意に基づく接地フレームワークであるTrifuseを提案する。
Trifuseは、注意、OCR由来のテキストキュー、アイコンレベルのセマンティクスをConsensus-SinglePeak(CS)融合戦略を通じて統合し、急激なローカライゼーションピークを維持しながら、クロスモーダルな合意を強制する。
4つのグラウンドベンチマークの大規模な評価は、Trifuseがタスク固有の微調整なしで強力なパフォーマンスを達成し、高価な注釈付きデータへの依存を大幅に減らしていることを示している。
さらに,OCRとキャプションキューの併用により,異なるバックボーン間のアテンションベースグラウンドリング性能が向上し,GUIグラウンドディングの汎用フレームワークとしての有効性が示された。
関連論文リスト
- LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation [12.192429756057132]
Open-vocabulary semantic segmentation (OVSS)は、従来のクローズドセットセマンティックセマンティックセマンティクスを拡張する。
ロゴセグは、(i)グローバルな画像とテキストの類似性を通じて関連カテゴリを動的に重み付けし、幻覚を効果的に低減するオブジェクトの存在、(ii)正確な地域レベルの視覚的テキスト対応を確立する地域対応アライメントモジュール、(iii)ローカルな構造情報とグローバルな意味コンテキストを最適に結合するデュアルストリーム融合機構の3つの重要なイノベーションを統合する。
論文 参考訳(メタデータ) (2026-02-05T12:03:11Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。
このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文 参考訳(メタデータ) (2024-10-31T14:50:48Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。