論文の概要: ReactGenie: A Development Framework for Complex Multimodal Interactions Using Large Language Models
- arxiv url: http://arxiv.org/abs/2306.09649v3
- Date: Thu, 2 May 2024 08:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 22:39:45.467605
- Title: ReactGenie: A Development Framework for Complex Multimodal Interactions Using Large Language Models
- Title(参考訳): ReactGenie: 大規模言語モデルを用いた複雑なマルチモーダルインタラクションのための開発フレームワーク
- Authors: Jackie Junrui Yang, Yingtian Shi, Yuhan Zhang, Karina Li, Daniel Wan Rosli, Anisha Jain, Shuning Zhang, Tianshi Li, James A. Landay, Monica S. Lam,
- Abstract要約: マルチモーダルインタフェースは モダリティのみの効率を 上回ります
本稿では,マルチモーダル入力を計算モデルから分離するプログラミングフレームワークReactGenieを提案する。
評価の結果、12人の開発者が平均2.5時間以内で、非自明なReactGenieアプリケーションを学習し、構築できることがわかった。
- 参考スコア(独自算出の注目度): 12.0218963520643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By combining voice and touch interactions, multimodal interfaces can surpass the efficiency of either modality alone. Traditional multimodal frameworks require laborious developer work to support rich multimodal commands where the user's multimodal command involves possibly exponential combinations of actions/function invocations. This paper presents ReactGenie, a programming framework that better separates multimodal input from the computational model to enable developers to create efficient and capable multimodal interfaces with ease. ReactGenie translates multimodal user commands into NLPL (Natural Language Programming Language), a programming language we created, using a neural semantic parser based on large-language models. The ReactGenie runtime interprets the parsed NLPL and composes primitives in the computational model to implement complex user commands. As a result, ReactGenie allows easy implementation and unprecedented richness in commands for end-users of multimodal apps. Our evaluation showed that 12 developers can learn and build a nontrivial ReactGenie application in under 2.5 hours on average. In addition, compared with a traditional GUI, end-users can complete tasks faster and with less task load using ReactGenie apps.
- Abstract(参考訳): 音声とタッチの相互作用を組み合わせることで、マルチモーダルインタフェースはモダリティのみの効率を超えることができる。
従来のマルチモーダルフレームワークは、ユーザのマルチモーダルコマンドがおそらく指数関数的なアクション/関数呼び出しの組み合わせを含むようなリッチなマルチモーダルコマンドをサポートするために、精力的な開発者作業を必要とする。
提案するReactGenieは,マルチモーダル入力を計算モデルからより分離したプログラミングフレームワークで,効率的なマルチモーダルインタフェースを開発者が簡単に作成できるようにする。
ReactGenieはマルチモーダルユーザコマンドをNLPL(Natural Language Programming Language)に変換する。
ReactGenieランタイムは解析済みのNLPLを解釈し、複雑なユーザコマンドを実装するために計算モデルでプリミティブを構成する。
結果として、ReactGenieは、マルチモーダルアプリのエンドユーザに対して、簡単な実装と前例のないコマンドのリッチ化を可能にします。
評価の結果、12人の開発者が平均2.5時間以内で、非自明なReactGenieアプリケーションを学習し、構築できることがわかった。
さらに、従来のGUIと比較して、エンドユーザは、ReactGenieアプリを使用して、タスクをより速く、より少ないタスク負荷で完了することができる。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex
Interactive Tasks [81.9962823875981]
我々は、人間の認知の二重プロセス理論に触発された新しいエージェントフレームワークSwiftSageを紹介する。
フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。
ScienceWorldベンチマークの30タスクでは、SwiftSageはSayCan、ReAct、Reflexといった他のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-27T07:04:15Z) - ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文 参考訳(メタデータ) (2023-05-25T14:34:08Z) - i-Code Studio: A Configurable and Composable Framework for Integrative
AI [93.74891865028867]
統合AIのためのフレキシブルで構成可能なフレームワークであるi-Code Studioを提案する。
i-Code Studioは、複雑なマルチモーダルタスクを実行するために、微調整なしで複数の事前訓練されたモデルを編成する。
i-Code Studioは、ビデオからテキストへの検索、音声から音声への翻訳、視覚的質問応答など、さまざまなゼロショットマルチモーダルタスクに関する印象的な結果を達成する。
論文 参考訳(メタデータ) (2023-05-23T06:45:55Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。