論文の概要: ReactGenie: An Object-Oriented State Abstraction for Complex Multimodal
Interactions Using Large Language Models
- arxiv url: http://arxiv.org/abs/2306.09649v1
- Date: Fri, 16 Jun 2023 06:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:49:33.363647
- Title: ReactGenie: An Object-Oriented State Abstraction for Complex Multimodal
Interactions Using Large Language Models
- Title(参考訳): reactgenie: 大きな言語モデルを用いた複雑なマルチモーダルインタラクションのためのオブジェクト指向状態抽象化
- Authors: Jackie (Junrui) Yang, Karina Li, Daniel Wan Rosli, Shuning Zhang,
Yuhan Zhang, Monica S. Lam, James A. Landay
- Abstract要約: ReactGenieは、複雑なマルチモーダルモバイルアプリケーションの構築をサポートするために、共有オブジェクト指向状態抽象化を使用するプログラミングフレームワークである。
異なるモダリティが同じ状態抽象化を共有することで、ReactGenieを使用する開発者は、これらのモダリティをシームレスに統合し、構成してマルチモーダルインタラクションを実現することができる。
参加者16名を対象に,集団作業者の指示による言語精度の評価を行い,マルチモーダル生成アプリのユーザビリティを評価した。
- 参考スコア(独自算出の注目度): 12.875869611136169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal interactions have been shown to be more flexible, efficient, and
adaptable for diverse users and tasks than traditional graphical interfaces.
However, existing multimodal development frameworks either do not handle the
complexity and compositionality of multimodal commands well or require
developers to write a substantial amount of code to support these multimodal
interactions. In this paper, we present ReactGenie, a programming framework
that uses a shared object-oriented state abstraction to support building
complex multimodal mobile applications. Having different modalities share the
same state abstraction allows developers using ReactGenie to seamlessly
integrate and compose these modalities to deliver multimodal interaction.
ReactGenie is a natural extension to the existing workflow of building a
graphical app, like the workflow with React-Redux. Developers only have to add
a few annotations and examples to indicate how natural language is mapped to
the user-accessible functions in the program. ReactGenie automatically handles
the complex problem of understanding natural language by generating a parser
that leverages large language models.
We evaluated the ReactGenie framework by using it to build three demo apps.
We evaluated the accuracy of the language parser using elicited commands from
crowd workers and evaluated the usability of the generated multimodal app with
16 participants. Our results show that ReactGenie can be used to build
versatile multimodal applications with highly accurate language parsers, and
the multimodal app can lower users' cognitive load and task completion time.
- Abstract(参考訳): マルチモーダルインタラクションは、従来のグラフィカルインターフェースよりも柔軟で、効率的で、多様なユーザやタスクに適応可能であることが示されている。
しかし、既存のマルチモーダル開発フレームワークは、マルチモーダルコマンドの複雑さと構成性をうまく扱わないか、開発者がこれらのマルチモーダルインタラクションをサポートするためにかなりの量のコードを書く必要がある。
本稿では,複雑なマルチモーダルモバイルアプリケーション構築を支援するために,共有オブジェクト指向状態抽象化を用いたプログラミングフレームワークReactGenieを提案する。
異なるモダリティが同じ状態抽象化を共有することで、ReactGenieを使用する開発者は、これらのモダリティをシームレスに統合し、構成してマルチモーダルインタラクションを実現することができる。
ReactGenieは、React-Reduxによるワークフローのようなグラフィカルアプリ構築の既存のワークフローの自然な拡張である。
開発者は、自然言語がプログラム内のユーザアクセス可能な関数にどのようにマップされるかを示すために、いくつかのアノテーションと例を追加するだけでよい。
ReactGenieは、大きな言語モデルを活用するパーサを生成することによって、自然言語を理解するという複雑な問題を自動的に処理する。
3つのデモアプリを構築するためにreactgenieフレームワークを評価した。
参加者16名を対象に,集団作業者からの誘導コマンドを用いて言語パーサの精度を評価し,生成したマルチモーダルアプリケーションのユーザビリティを評価した。
この結果から,ReactGenieは,高精度な言語パーサを備えた汎用マルチモーダルアプリケーションの構築に利用でき,マルチモーダルアプリはユーザの認知負荷やタスク完了時間を短縮できることがわかった。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex
Interactive Tasks [81.9962823875981]
我々は、人間の認知の二重プロセス理論に触発された新しいエージェントフレームワークSwiftSageを紹介する。
フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。
ScienceWorldベンチマークの30タスクでは、SwiftSageはSayCan、ReAct、Reflexといった他のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-27T07:04:15Z) - ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文 参考訳(メタデータ) (2023-05-25T14:34:08Z) - i-Code Studio: A Configurable and Composable Framework for Integrative
AI [93.74891865028867]
統合AIのためのフレキシブルで構成可能なフレームワークであるi-Code Studioを提案する。
i-Code Studioは、複雑なマルチモーダルタスクを実行するために、微調整なしで複数の事前訓練されたモデルを編成する。
i-Code Studioは、ビデオからテキストへの検索、音声から音声への翻訳、視覚的質問応答など、さまざまなゼロショットマルチモーダルタスクに関する印象的な結果を達成する。
論文 参考訳(メタデータ) (2023-05-23T06:45:55Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。