Fugu-MT 論文翻訳(概要): GUIDE: Graphical User Interface Data for Execution

論文の概要: GUIDE: Graphical User Interface Data for Execution

arxiv url: http://arxiv.org/abs/2404.16048v1
Date: Tue, 9 Apr 2024 11:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-28 10:36:53.706020
Title: GUIDE: Graphical User Interface Data for Execution
Title（参考訳）: GUIDE: 実行のためのグラフィカルユーザインタフェースデータ
Authors: Rajat Chawla, Adarsh Jha, Muskaan Kumar, Mukunda NS, Ishaan Bhola,
Abstract要約: GUIDEは、MLLM(Multimodal Large Language Model)アプリケーションの開発に適した、新しいデータセットである。私たちのデータセットは、Apollo(62.67%)、Gmail(.43%)、Calendar(22.92%)など、さまざまなWebサイトのさまざまなデータを含んでいる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce GUIDE, a novel dataset tailored for the advancement of Multimodal Large Language Model (MLLM) applications, particularly focusing on Robotic Process Automation (RPA) use cases. Our dataset encompasses diverse data from various websites including Apollo(62.67\%), Gmail(3.43\%), Calendar(10.98\%) and Canva(22.92\%). Each data entry includes an image, a task description, the last action taken, CoT and the next action to be performed along with grounding information of where the action needs to be executed. The data is collected using our in-house advanced annotation tool NEXTAG (Next Action Grounding and Annotation Tool). The data is adapted for multiple OS, browsers and display types. It is collected by multiple annotators to capture the variation of design and the way person uses a website. Through this dataset, we aim to facilitate research and development in the realm of LLMs for graphical user interfaces, particularly in tasks related to RPA. The dataset's multi-platform nature and coverage of diverse websites enable the exploration of cross-interface capabilities in automation tasks. We believe that our dataset will serve as a valuable resource for advancing the capabilities of multi-platform LLMs in practical applications, fostering innovation in the field of automation and natural language understanding. Using GUIDE, we build V-Zen, the first RPA model to automate multiple websites using our in-House Automation tool AUTONODE
Abstract（参考訳）: 本稿では,MLLM(Multimodal Large Language Model)アプリケーションの開発に適した新しいデータセットであるGUIDEを紹介し,特にロボットプロセス自動化(RPA)のユースケースに着目した。このデータセットは、Apollo(62.67\%)、Gmail(3.43\%)、Calendar(10.98\%)、Canva(22.92\%)など、さまざまなWebサイトからの多様なデータを含んでいる。各データエントリには、イメージ、タスク記述、取るべき最後のアクション、CoTおよび次のアクションと、実行すべきアクションの実行場所のグラウンド情報が含まれている。データは社内の高度なアノテーションツールNEXTAG(Next Action Grounding and Annotation Tool)を使って収集されます。データは複数のOS、ブラウザ、ディスプレイタイプに対応している。複数のアノテータによって収集され、デザインのバリエーションと人がウェブサイトを使う方法を把握する。本データセットは,グラフィカルユーザインタフェース,特にRPAに関連するタスクにおいて,LLMの領域における研究と開発を容易にすることを目的としている。データセットのマルチプラットフォームの性質と多様なWebサイトのカバレッジにより、自動化タスクにおけるクロスプラットフォーム機能の調査が可能になる。当社のデータセットは,マルチプラットフォーム LLM の実用的応用能力の向上,自動化と自然言語理解の分野におけるイノベーションの促進に有用なリソースになると考えています。 GUIDEを使って、V-Zenという、ホームオートメーションツールAUTONODEを使って複数のWebサイトを自動化する最初のRPAモデルを構築しました。

関連論文リスト

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文参考訳（メタデータ） (2024-12-12T18:59:27Z)
On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文参考訳（メタデータ） (2024-07-03T17:59:58Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文参考訳（メタデータ） (2024-06-14T17:44:08Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction [11.458594744457521]
アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。ほとんどのデータセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。我々はMultiADEと名づけた有害薬物イベント抽出のためのベンチマークを構築した。
論文参考訳（メタデータ） (2024-05-28T09:57:28Z)
On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文参考訳（メタデータ） (2024-02-23T02:18:12Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文参考訳（メタデータ） (2023-10-07T07:22:41Z)
MEM: Multi-Modal Elevation Mapping for Robotics and Learning [10.476978089902818]
我々は、複数の情報源からのマルチモーダル情報を一般的な地図表現に融合させることにより、2.5Dロボット中心の標高マッピングフレームワークを拡張した。我々のシステムはGPU上で動くように設計されており、様々なロボットや学習タスクをリアルタイムに行うことができる。
論文参考訳（メタデータ） (2023-09-28T19:55:29Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。