論文の概要: TWIZ: The Wizard of Multimodal Conversational-Stimulus
- arxiv url: http://arxiv.org/abs/2310.02118v1
- Date: Tue, 3 Oct 2023 14:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:36:21.964979
- Title: TWIZ: The Wizard of Multimodal Conversational-Stimulus
- Title(参考訳): TWIZ:マルチモーダル会話刺激の魔法
- Authors: Rafael Ferreira, Diogo Tavares, Diogo Silva, Rodrigo Val\'erio, Jo\~ao
Bordalo, In\^es Sim\~oes, Vasco Ramos, David Semedo, Jo\~ao Magalh\~aes
- Abstract要約: タスクウィザードチームであるTWIZのビジョン、課題、科学的貢献について、Alexa Prize TaskBot Challenge 2022で紹介する。
私たちのビジョンは、複雑な手作業の完了に向けてユーザーを誘導する便利な、マルチモーダルで、知識があり、魅力的なアシスタントとして、TWIZボットを構築することです。
- 参考スコア(独自算出の注目度): 8.010354166991991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe the vision, challenges, and scientific
contributions of the Task Wizard team, TWIZ, in the Alexa Prize TaskBot
Challenge 2022. Our vision, is to build TWIZ bot as an helpful, multimodal,
knowledgeable, and engaging assistant that can guide users towards the
successful completion of complex manual tasks. To achieve this, we focus our
efforts on three main research questions: (1) Humanly-Shaped Conversations, by
providing information in a knowledgeable way; (2) Multimodal Stimulus, making
use of various modalities including voice, images, and videos; and (3)
Zero-shot Conversational Flows, to improve the robustness of the interaction to
unseen scenarios. TWIZ is an assistant capable of supporting a wide range of
tasks, with several innovative features such as creative cooking, video
navigation through voice, and the robust TWIZ-LLM, a Large Language Model
trained for dialoguing about complex manual tasks. Given ratings and feedback
provided by users, we observed that TWIZ bot is an effective and robust system,
capable of guiding users through tasks while providing several multimodal
stimuli.
- Abstract(参考訳): 本報告では,Alexa Prize TaskBot Challenge 2022において,タスクウィザードチームであるTWIZのビジョン,課題,科学的貢献について述べる。
当社のビジョンは、twizボットを便利でマルチモーダルで、知識に富み、魅力的なアシスタントとして構築することで、複雑な手動タスクの完了をユーザに導くことです。
そこで本研究では,(1)情報提供による人間型会話,(2)音声,画像,ビデオなどの様々なモーダル性を活用したマルチモーダル刺激,(3)ゼロショット会話フローの3つの研究課題に焦点をあてて,未知のシナリオとのインタラクションの堅牢性を向上させる。
TWIZは幅広いタスクをサポートすることができるアシスタントであり、創造的な料理、音声によるビデオナビゲーション、複雑な手作業の対話を訓練した大規模言語モデルであるTWIZ-LLMといった革新的な機能を備えている。
ユーザから提供された評価やフィードバックから,TWIZボットは効果的で堅牢なシステムであり,複数のマルチモーダル刺激を与えながらタスクを通じてユーザを誘導できることを示した。
関連論文リスト
- WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Roll Up Your Sleeves: Working with a Collaborative and Engaging
Task-Oriented Dialogue System [28.75059053433368]
TacoBotはタスク指向のデジタルアシスタントである。
私たちは、協調的で魅力的な対話体験を提供することを目指しています。
対話体験を向上させるため、我々は一連のデータ拡張戦略を探索する。
論文 参考訳(メタデータ) (2023-07-29T21:37:24Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文 参考訳(メタデータ) (2022-05-30T12:41:23Z) - On Task-Level Dialogue Composition of Generative Transformer Model [9.751234480029765]
本研究では,トランスフォーマー生成モデルにおけるヒューマン・ヒューマン・タスク指向対話の学習効果について検討した。
そこで本研究では,(1)人間と人間による単一タスク対話から学習のための複合タスク対話データを作成すること,(2)補助的損失を用いてエンコーダ表現を単一タスク対話に不変にすること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2020-10-09T22:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。