Fugu-MT 論文翻訳(概要): GUI Action Narrator: Where and When Did That Action Take Place?

論文の概要: GUI Action Narrator: Where and When Did That Action Take Place?

arxiv url: http://arxiv.org/abs/2406.13719v1
Date: Wed, 19 Jun 2024 17:22:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 18:45:06.715337
Title: GUI Action Narrator: Where and When Did That Action Take Place?
Title（参考訳）: GUIアクションナレーター:そのアクションはいつ、どこで起こったのか?
Authors: Qinchen Wu, Difei Gao, Kevin Qinghong Lin, Zhuoyu Wu, Xiangwu Guo, Peiran Li, Weichen Zhang, Hengxu Wang, Mike Zheng Shou,
Abstract要約: 我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。本課題は,自然映像のキャプションに比較して,独特な課題を呈する。 GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
参考スコア（独自算出の注目度）: 19.344324166716245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Multimodal LLMs has significantly enhanced image OCR recognition capabilities, making GUI automation a viable reality for increasing efficiency in digital tasks. One fundamental aspect of developing a GUI automation system is understanding primitive GUI actions. This comprehension is crucial as it enables agents to learn from user demonstrations, an essential element of automation. To rigorously evaluate such capabilities, we developed a video captioning benchmark for GUI actions, comprising 4,189 diverse video captioning samples. This task presents unique challenges compared to natural scene video captioning: 1) GUI screenshots typically contain denser information than natural scenes, and 2) events within GUIs are subtler and occur more rapidly, requiring precise attention to the appropriate time span and spatial region for accurate understanding. To address these challenges, we introduce our GUI action dataset \textbf{Act2Cap} as well as a simple yet effective framework, \textbf{GUI Narrator}, for GUI video captioning that utilizes the cursor as a visual prompt to enhance the interpretation of high-resolution screenshots. Specifically, a cursor detector is trained on our dataset, and a multimodal LLM model with mechanisms for selecting keyframes and key regions generates the captions. Experimental results indicate that even for today's most advanced multimodal models, such as GPT-4o, the task remains highly challenging. Additionally, our evaluations show that our strategy effectively enhances model performance, whether integrated into the fine-tuning of open-source models or employed as a prompting strategy in closed-source models.
Abstract（参考訳）: マルチモーダルLLMの出現により、画像のOCR認識能力が大幅に向上し、GUI自動化がデジタルタスクの効率を高めるための現実的現実となった。 GUI自動化システムを開発する基本的な側面の1つは、原始的なGUIアクションを理解することである。この理解は、エージェントがユーザーデモから学ぶことができるため、自動化の重要な要素である。このような機能を厳格に評価するために,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。本課題は,自然映像のキャプションに比較して,独特な課題を提示する。 1)GUIスクリーンショットには、通常、自然のシーンよりも密集した情報が含まれており、 2) GUI内のイベントはより微妙で、より迅速に発生し、正確な理解のために適切な時間範囲と空間領域に正確に注意する必要がある。これらの課題に対処するために、カーソルを視覚的プロンプトとして利用するGUIビデオキャプションに、GUIアクションデータセット \textbf{Act2Cap} と、単純で効果的なフレームワーク \textbf{GUI Narrator} を導入し、高解像度スクリーンショットの解釈を強化する。具体的には、カーソル検出器をデータセット上でトレーニングし、キーフレームとキー領域を選択する機構を備えたマルチモーダルLCMモデルでキャプションを生成する。 GPT-4oのような今日の最も先進的なマルチモーダルモデルにおいても、この課題は非常に困難なままである。さらに,我々の評価は,オープンソースモデルの微調整に統合されるか,あるいはクローズドソースモデルにおけるプロンプト戦略として採用されるか,モデル性能を効果的に向上することを示す。

関連論文リスト

ShowUI-Aloha: Human-Taught GUI Agent [46.35538753446132]
ShowUI-Alohaは、非構造化され、その内部の人間のスクリーン記録を構造化され、実行可能なタスクに変換する。学習者はこれらの生の相互作用と周囲の視覚的文脈を意味論的に解釈し、それらを記述的な自然言語キャプションに翻訳する。解析されたデモを読み、タスク状態を維持し、次のハイレベルアクションプランを動的に定式化するプランナー。
論文参考訳（メタデータ） (2026-01-12T04:04:20Z)
ScreenLLM: Stateful Screen Schema for Efficient Action Understanding and Prediction [15.220300812671494]
先進的なUI理解とアクション予測に適したマルチモーダル大規模言語モデル(MLLM)のセットであるScreenLLMを紹介する。我々の研究は、多様なソフトウェア環境におけるユーザインタラクションを強化するスケーラブルで堅牢でインテリジェントなGUIエージェントの基礎を築いた。
論文参考訳（メタデータ） (2025-03-26T20:41:24Z)
MP-GUI: Modality Perception with MLLMs for GUI Understanding [12.812289005013797]
MP-GUIはGUI理解のための特別に設計されたMLLMである。 MP-GUIは、画面からグラフィカル、テキスト、空間のモダリティを抽出する3つの専門のパーシーバーを備えている。トレーニングデータの不足に対処するため,自動データ収集のためのパイプラインも導入する。
論文参考訳（メタデータ） (2025-03-18T08:32:22Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文参考訳（メタデータ） (2024-01-19T09:58:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。