論文の概要: Intelligent Virtual Assistants with LLM-based Process Automation
- arxiv url: http://arxiv.org/abs/2312.06677v1
- Date: Mon, 4 Dec 2023 07:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:52:11.621817
- Title: Intelligent Virtual Assistants with LLM-based Process Automation
- Title(参考訳): LLMに基づくプロセス自動化によるインテリジェント仮想アシスタント
- Authors: Yanchu Guan, Dong Wang, Zhixuan Chu, Shiyu Wang, Feiyue Ni, Ruihua
Song, Longfei Li, Jinjie Gu, Chenyi Zhuang
- Abstract要約: 本稿では,高レベルのユーザ要求に基づいて,モバイルアプリ内のマルチステップ操作を自動的に実行可能な,LLMベースの新しい仮想アシスタントを提案する。
このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
- 参考スコア(独自算出の注目度): 31.275267197246595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While intelligent virtual assistants like Siri, Alexa, and Google Assistant
have become ubiquitous in modern life, they still face limitations in their
ability to follow multi-step instructions and accomplish complex goals
articulated in natural language. However, recent breakthroughs in large
language models (LLMs) show promise for overcoming existing barriers by
enhancing natural language processing and reasoning capabilities. Though
promising, applying LLMs to create more advanced virtual assistants still faces
challenges like ensuring robust performance and handling variability in
real-world user commands. This paper proposes a novel LLM-based virtual
assistant that can automatically perform multi-step operations within mobile
apps based on high-level user requests. The system represents an advance in
assistants by providing an end-to-end solution for parsing instructions,
reasoning about goals, and executing actions. LLM-based Process Automation
(LLMPA) has modules for decomposing instructions, generating descriptions,
detecting interface elements, predicting next actions, and error checking.
Experiments demonstrate the system completing complex mobile operation tasks in
Alipay based on natural language instructions. This showcases how large
language models can enable automated assistants to accomplish real-world tasks.
The main contributions are the novel LLMPA architecture optimized for app
process automation, the methodology for applying LLMs to mobile apps, and
demonstrations of multi-step task completion in a real-world environment.
Notably, this work represents the first real-world deployment and extensive
evaluation of a large language model-based virtual assistant in a widely used
mobile application with an enormous user base numbering in the hundreds of
millions.
- Abstract(参考訳): Siri、Alexa、Google Assistantといったインテリジェントなバーチャルアシスタントは現代では至るところで普及しているが、多段階の指示に従い、自然言語で書かれた複雑な目標を達成する能力には限界がある。
しかし、最近の大規模言語モデル(LLM)のブレークスルーは、自然言語処理と推論能力を強化することで、既存の障壁を克服することを約束している。
有望だが、より高度な仮想アシスタントを作成するためにllmを適用すると、実世界のユーザーコマンドにおける堅牢なパフォーマンスと可変性を確保するといった課題に直面する。
本稿では,高レベルのユーザ要求に基づいてモバイルアプリ内でマルチステップ操作を自動実行可能な,新しいllmベースの仮想アシスタントを提案する。
このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
LLMベースのプロセス自動化(LLMPA)には、命令の分解、記述の生成、インターフェース要素の検出、次のアクションの予測、エラーチェックのためのモジュールがある。
実験は自然言語命令に基づくalipayの複雑な移動操作タスクを完了させる。
これは、大規模な言語モデルが自動化アシスタントが現実世界のタスクをどのように達成できるかを示す。
主な貢献は、アプリケーションプロセス自動化に最適化された新しいLLMPAアーキテクチャ、モバイルアプリにLLMを適用する方法論、実環境におけるマルチステップタスク補完の実証である。
注目すべきなのは、この作業は、数十億という巨大なユーザベース数を持つ、広く使用されているモバイルアプリケーションにおいて、大規模な言語モデルベースの仮想アシスタントの、初めての実世界の展開と広範な評価である。
関連論文リスト
- ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。