論文の概要: ReactGenie: A Development Framework for Complex Multimodal Interactions
Using Large Language Models
- arxiv url: http://arxiv.org/abs/2306.09649v2
- Date: Tue, 30 Jan 2024 06:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:13:47.497025
- Title: ReactGenie: A Development Framework for Complex Multimodal Interactions
Using Large Language Models
- Title(参考訳): ReactGenie: 大規模言語モデルを用いた複雑なマルチモーダルインタラクションのための開発フレームワーク
- Authors: Jackie Junrui Yang, Yingtian Shi, Yuhan Zhang, Karina Li, Daniel Wan
Rosli, Anisha Jain, Shuning Zhang, Tianshi Li, James A. Landay, Monica S. Lam
- Abstract要約: マルチモーダルインタフェースは モダリティのみの効率を 上回ります
本稿では,アクション/関数の指数的組み合わせの1つに変換されるマルチモーダルコマンドをユーザが発行する,複雑なインタラクションを対象とする。
本稿では、開発者がシンプルなオブジェクト指向の抽象化とラベル付きユーザ呼び出し可能なプリミティブでコーディングできるプログラミングフレームワークであるReactGenieについて述べる。
評価の結果、12人の開発者が平均2.5時間以内でReactGenieアプリケーションを学習し、構築できることがわかった。
- 参考スコア(独自算出の注目度): 12.379705931394911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By combining voice and touch interactions, multimodal interfaces can surpass
the efficiency of either modality alone. This paper targets complex
interactions, where users can issue multimodal commands that translate into one
of the possible exponential combinations of actions/function invocations. This
paper presents ReactGenie, a programming framework where developers can code
with simple object-oriented abstractions and labeled user-invocable primitives.
ReactGenie translates multimodal user commands into ReactGenieDSL, a
domain-specific language we created for this purpose, using a neural semantic
parser based on large-language models. The ReactGenie runtime interprets the
parsed ReactGenieDSL and composes primitives to implement complex user
commands. As a result, ReactGenie provides an unprecedented level of richness
in user interactions. Our evaluation showed that 12 developers can learn and
build a ReactGenie application in under 2.5 hours on average. In addition,
compared with a traditional GUI, end users can complete tasks faster and with
less task load using ReactGenie apps.
- Abstract(参考訳): 音声とタッチの相互作用を組み合わせることで、マルチモーダルインタフェースはモダリティのみの効率を超えることができる。
本稿では,動作/機能呼び出しの指数的組み合わせの1つに変換されるマルチモーダルコマンドをユーザが発行する複雑なインタラクションを対象とする。
本稿では,単純なオブジェクト指向抽象化とラベル付きユーザ起動型プリミティブでプログラミング可能なプログラミングフレームワークであるreactgenieを提案する。
reactgenieは、マルチモーダルユーザコマンドを、私たちがこの目的のために作ったドメイン固有言語であるreactgeniedslに翻訳します。
ReactGenieランタイムは解析済みのReactGenieDSLを解釈し、複雑なユーザコマンドを実装するプリミティブを構成する。
その結果、reactgenieはユーザインタラクションにおいて前例のないレベルのリッチさを提供します。
評価の結果、12人の開発者が平均2.5時間以内でReactGenieアプリケーションを学習、構築できることがわかった。
さらに、従来のguiと比べて、エンドユーザはreactgenieアプリを使用してタスクを高速かつ少ないタスクロードで完了することができる。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex
Interactive Tasks [81.9962823875981]
我々は、人間の認知の二重プロセス理論に触発された新しいエージェントフレームワークSwiftSageを紹介する。
フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。
ScienceWorldベンチマークの30タスクでは、SwiftSageはSayCan、ReAct、Reflexといった他のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-27T07:04:15Z) - ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文 参考訳(メタデータ) (2023-05-25T14:34:08Z) - i-Code Studio: A Configurable and Composable Framework for Integrative
AI [93.74891865028867]
統合AIのためのフレキシブルで構成可能なフレームワークであるi-Code Studioを提案する。
i-Code Studioは、複雑なマルチモーダルタスクを実行するために、微調整なしで複数の事前訓練されたモデルを編成する。
i-Code Studioは、ビデオからテキストへの検索、音声から音声への翻訳、視覚的質問応答など、さまざまなゼロショットマルチモーダルタスクに関する印象的な結果を達成する。
論文 参考訳(メタデータ) (2023-05-23T06:45:55Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。