論文の概要: DiLogics: Creating Web Automation Programs With Diverse Logics
- arxiv url: http://arxiv.org/abs/2308.05828v2
- Date: Fri, 18 Aug 2023 15:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:03:49.535056
- Title: DiLogics: Creating Web Automation Programs With Diverse Logics
- Title(参考訳): DiLogics: 分散ロジックでWebオートメーションプログラムを作成する
- Authors: Kevin Pu, Jim Yang, Angel Yuan, Minyi Ma, Rui Dong, Xinyu Wang, Yan
Chen, Tovi Grossman
- Abstract要約: 我々は,NLPを利用してWebオートメーションプログラムの作成を支援するプログラミング・バイ・デモレーションシステムであるDiLogicsを提案する。
各ステップでユーザデモを記録することで、DiLogicsはWebマクロを新しいがセマンティックに類似したタスク要求に一般化する。
- 参考スコア(独自算出の注目度): 14.703059232221497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge workers frequently encounter repetitive web data entry tasks, like
updating records or placing orders. Web automation increases productivity, but
translating tasks to web actions accurately and extending to new specifications
is challenging. Existing tools can automate tasks that perform the same logical
trace of UI actions (e.g., input text in each field in order), but do not
support tasks requiring different executions based on varied input conditions.
We present DiLogics, a programming-by-demonstration system that utilizes NLP to
assist users in creating web automation programs that handle diverse
specifications. DiLogics first semantically segments input data to structured
task steps. By recording user demonstrations for each step, DiLogics
generalizes the web macros to novel but semantically similar task requirements.
Our evaluation showed that non-experts can effectively use DiLogics to create
automation programs that fulfill diverse input instructions. DiLogics provides
an efficient, intuitive, and expressive method for developing web automation
programs satisfying diverse specifications.
- Abstract(参考訳): 知識労働者はしばしば、レコードの更新や注文の配置など、反復的なWebデータ入力タスクに遭遇する。
Webオートメーションは生産性を向上させるが、タスクをWebアクションに正確に翻訳し、新しい仕様に拡張することは難しい。
既存のツールは、UIアクションの論理的トレース(例えば、順番に各フィールドの入力テキスト)を実行するタスクを自動化することができるが、様々な入力条件に基づいて異なる実行を必要とするタスクをサポートしない。
我々は,NLPを利用したプログラミング・バイ・デモレーションシステムであるDiLogicsを紹介し,多様な仕様を扱うWebオートメーションプログラムの作成を支援する。
DiLogicsはまず、入力データを構造化タスクステップにセグメンテーションする。
各ステップでユーザデモを記録することで、DiLogicsはWebマクロを新しいがセマンティックに類似したタスク要求に一般化する。
評価の結果,非専門家はDiLogicsを使って多様な入力命令を満たす自動化プログラムを作成できることがわかった。
DiLogicsは、様々な仕様を満たすWebオートメーションプログラムを開発するための効率的で直感的で表現力豊かな方法を提供する。
関連論文リスト
- VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - SmartFlow: Robotic Process Automation using LLMs [16.065318294682687]
SmartFlowは、トレーニング済みの大規模言語モデル(LLM)とディープラーニングベースの画像理解を使用する、AIベースのRPAシステムである。
ユーザインタフェースの変更や入力データのバリエーションなど,人間の介入を必要とせずに,新たなシナリオに適応することができる。
SmartFlowはフォームフィリング、カスタマーサービス、請求処理、バックオフィス操作など、幅広いビジネスプロセスを自動化することができる。
論文 参考訳(メタデータ) (2024-05-21T14:49:12Z) - DOLOMITES: Domain-Specific Long-Form Methodical Tasks [81.63464319950664]
本研究では,課題目標,手順,入力,出力の形式で構成された方法論的タスクのタイプロジーを開発する。
このベンチマークは519の仕様で、25の分野から数百のエキスパートが引き起こしたタスクである。
さらに,本ベンチマークでは,具体的入力と出力の例を用いた方法論的タスクの具体的インスタンス化について述べる。
論文 参考訳(メタデータ) (2024-05-09T17:25:31Z) - GUIDE: Graphical User Interface Data for Execution [0.0]
GUIDEは、MLLM(Multimodal Large Language Model)アプリケーションの開発に適した、新しいデータセットである。
私たちのデータセットは、Apollo(62.67%)、Gmail(.43%)、Calendar(22.92%)など、さまざまなWebサイトのさまざまなデータを含んでいる。
論文 参考訳(メタデータ) (2024-04-09T11:59:41Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - AutoML to Date and Beyond: Challenges and Opportunities [30.60364966752454]
AutoMLツールは、機械学習を非機械学習の専門家が利用できるようにすることを目的としている。
本稿では,AutoMLシステムのための新しい分類システムを提案する。
エンド・ツー・エンドの機械学習パイプラインのさらなる自動化に必要な研究を指摘して、将来のロードマップを策定しました。
論文 参考訳(メタデータ) (2020-10-21T06:08:21Z) - Evaluating Sequence-to-Sequence Learning Models for If-Then Program
Synthesis [0.0]
プロセス自動化のビルディングブロックは、if-thenプログラムです。
コンシューマの世界では、IFTTTのようなサイトでは、グラフィカルインターフェースを使用してif-Thenプログラムを定義することで、ユーザが自動化を作成することができる。
Seq2Seqアプローチは(シーケンスのレシピに強く依存する)高いポテンシャルを持ち、より複雑なプログラム課題を合成するための有望なアプローチとして機能する。
論文 参考訳(メタデータ) (2020-02-10T00:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。