論文の概要: Graphical user interface agents optimization for visual instruction grounding using multi-modal artificial intelligence systems
- arxiv url: http://arxiv.org/abs/2407.01558v1
- Date: Sun, 5 May 2024 19:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:28:39.823684
- Title: Graphical user interface agents optimization for visual instruction grounding using multi-modal artificial intelligence systems
- Title(参考訳): マルチモーダル人工知能システムを用いた視覚的命令接地のためのグラフィカルユーザインタフェースエージェント最適化
- Authors: Tassnim Dardouri, Laura Minkova, Jessica López Espejel, Walid Dahhane, El Hassane Ettifouri,
- Abstract要約: GUIにおけるオブジェクト識別のためのマルチモーダルソリューションである検索命令コーディネート(SIC)を提案する。
より正確には、自然言語命令とGUIのスクリーンショットが与えられたら、SICは命令が実行される画面上のコンポーネントの座標を見つける。
- 参考スコア(独自算出の注目度): 1.3107174618549584
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most instance perception and image understanding solutions focus mainly on natural images. However, applications for synthetic images, and more specifically, images of Graphical User Interfaces (GUI) remain limited. This hinders the development of autonomous computer-vision-powered Artificial Intelligence (AI) agents. In this work, we present Search Instruction Coordinates or SIC, a multi-modal solution for object identification in a GUI. More precisely, given a natural language instruction and a screenshot of a GUI, SIC locates the coordinates of the component on the screen where the instruction would be executed. To this end, we develop two methods. The first method is a three-part architecture that relies on a combination of a Large Language Model (LLM) and an object detection model. The second approach uses a multi-modal foundation model.
- Abstract(参考訳): ほとんどのインスタンス認識と画像理解ソリューションは、主に自然画像に焦点を当てている。
しかし、合成画像、より具体的には、GUI(Graphical User Interfaces)の画像は依然として限られている。
これにより、自律型コンピュータビジョン駆動人工知能(AI)エージェントの開発が妨げられる。
本稿では,GUIにおけるオブジェクト識別のためのマルチモーダルソリューションである検索命令コーディネート(SIC)を提案する。
より正確には、自然言語命令とGUIのスクリーンショットが与えられたら、SICは命令が実行される画面上のコンポーネントの座標を見つける。
この目的のために、我々は2つの方法を開発した。
最初の方法は3部構成のアーキテクチャで、LLM(Large Language Model)とオブジェクト検出モデルの組み合わせに依存している。
2つ目のアプローチは、マルチモーダル基盤モデルを使用する。
関連論文リスト
- Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - GUI Element Detection Using SOTA YOLO Deep Learning Models [5.835026544704744]
グラフィカルユーザインタフェース(GUI)要素の検出は、画像やスケッチからの自動コード生成、GUIテスト、GUI検索において重要なタスクである。
近年の研究では、旧来のコンピュータビジョン(CV)技術と近代的なコンピュータビジョン(CV)技術が活用されている。
そこで本研究では,GUI要素検出における汎用オブジェクト検出タスクに対して,最近成功した4つのYOLOモデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-07T02:18:39Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z) - An Empirical Investigation into the Use of Image Captioning for
Automated Software Documentation [17.47243004709207]
本稿では,グラフィカルユーザインタフェースとソフトウェアの機能的自然言語記述との関係について検討する。
人気の高いAndroidアプリケーションのスクリーンショット10,204枚に対して45,998個の説明からなる,関数型GUI記述の大規模なデータセットを収集し,分析し,オープンソースにしています。
GUIの表現可能性に関する洞察を得るため、4つのニューラルイメージキャプションモデルを用いて、スクリーンショットを入力として提供した場合に、様々な粒度の自然言語記述を予測する能力について検討する。
論文 参考訳(メタデータ) (2023-01-03T17:15:18Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired
Images [102.4003329297039]
教師なし画像画像変換(UI2I)タスクは、ペア画像のない2つのドメイン間のマッピングを学習する。
本研究では,2つの未ペア画像のみをトレーニングし,ワンショットで教師なし学習を行う生成モデルTuiGANを提案する。
論文 参考訳(メタデータ) (2020-04-09T16:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。