論文の概要: BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
- arxiv url: http://arxiv.org/abs/2509.15566v4
- Date: Mon, 27 Oct 2025 11:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.560222
- Title: BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
- Title(参考訳): BTL-UI:GUIエージェントのリンクシンクリンク推論モデル
- Authors: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan,
- Abstract要約: リンクシンクリンク(Blink-Think-Link)は、人間のGUIインタラクションのための脳に触発されたフレームワークである。
このシステムは相互作用を3つの生物学的にもっともらしい相に分解する。
Blink Data GenerationとBTL Rewardは、プロセスと結果の両方によって駆動される強化学習を可能にする。
- 参考スコア(独自算出の注目度): 19.79016351559358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of AI-driven human-GUI interaction automation, while rapid advances in multimodal large language models and reinforcement fine-tuning techniques have yielded remarkable progress, a fundamental challenge persists: their interaction logic significantly deviates from natural human-GUI communication patterns. To fill this gap, we propose "Blink-Think-Link" (BTL), a brain-inspired framework for human-GUI interaction that mimics the human cognitive process between users and graphical interfaces. The system decomposes interactions into three biologically plausible phases: (1) Blink - rapid detection and attention to relevant screen areas, analogous to saccadic eye movements; (2) Think - higher-level reasoning and decision-making, mirroring cognitive planning; and (3) Link - generation of executable commands for precise motor control, emulating human action selection mechanisms. Additionally, we introduce two key technical innovations for the BTL framework: (1) Blink Data Generation - an automated annotation pipeline specifically optimized for blink data, and (2) BTL Reward -- the first rule-based reward mechanism that enables reinforcement learning driven by both process and outcome. Building upon this framework, we develop a GUI agent model named BTL-UI, which demonstrates competitive performance across both static GUI understanding and dynamic interaction tasks in comprehensive benchmarks. These results provide conclusive empirical validation of the framework's efficacy in developing advanced GUI Agents.
- Abstract(参考訳): AI駆動のヒューマン-GUIインタラクション自動化の分野では、マルチモーダルな大規模言語モデルと強化された微調整技術が急速に進歩する一方で、根本的な課題が続いている。
このギャップを埋めるために、ユーザとグラフィカルインターフェース間の人間の認知プロセスを模倣する人間-GUIインタラクションのためのブレインインスパイアされたフレームワークであるBlink-Think-Link(BTL)を提案する。
本システムでは, 相互作用を3つの生物学的に妥当なフェーズに分解する。(1) Blink - サスカデック眼球運動に類似した, 関連画面領域の迅速検出と注意, (2) 思考 - 高いレベルの推論と意思決定, 認知計画のミラー化, (3) リンク - 正確な運動制御のための実行可能コマンドの生成, 人間の行動選択機構のエミュレーション。
さらに、BTLフレームワークの2つの重要な技術革新を紹介します。(1) Blink Data Generation - リンクデータに特化して最適化された自動アノテーションパイプライン、(2) BTL Reward - プロセスと結果の両方によって駆動される強化学習を可能にする最初のルールベースの報酬メカニズムです。
そこで我々は,BTL-UIというGUIエージェントモデルを構築し,静的GUI理解と動的インタラクションタスクを総合ベンチマークで比較した。
これらの結果は、高度なGUIエージェントの開発におけるフレームワークの有効性の確定的な実証的検証を提供する。
関連論文リスト
- Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文 参考訳(メタデータ) (2025-03-09T06:14:17Z) - GUI Agents: A Survey [157.9623286951606]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。