論文の概要: Building Multimodal AI Chatbots
- arxiv url: http://arxiv.org/abs/2305.03512v1
- Date: Fri, 21 Apr 2023 16:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-14 21:05:50.595527
- Title: Building Multimodal AI Chatbots
- Title(参考訳): マルチモーダルAIチャットボットの構築
- Authors: Min Young Lee
- Abstract要約: この研究の目的は、人間とチャットし、関連する写真を共有するマルチモーダルAIシステムを作ることだ。
テキストを理解する画像検索器と、画像を理解する応答生成器の2つのマルチモーダルディープラーニングモデルを提案する。
2つのモデルは、各セッションで写真を共有するオープンドメインの対話データセットであるPhotoChatでトレーニングされ、評価される。
- 参考スコア(独自算出の注目度): 2.1987180245567246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims to create a multimodal AI system that chats with humans and
shares relevant photos. While earlier works were limited to dialogues about
specific objects or scenes within images, recent works have incorporated images
into open-domain dialogues. However, their response generators are unimodal,
accepting text input but no image input, thus prone to generating responses
contradictory to the images shared in the dialogue. Therefore, this work
proposes a complete chatbot system using two multimodal deep learning models:
an image retriever that understands texts and a response generator that
understands images. The image retriever, implemented by ViT and BERT, selects
the most relevant image given the dialogue history and a database of images.
The response generator, implemented by ViT and GPT-2/DialoGPT, generates an
appropriate response given the dialogue history and the most recently retrieved
image. The two models are trained and evaluated on PhotoChat, an open-domain
dialogue dataset in which a photo is shared in each session. In automatic
evaluation, the proposed image retriever outperforms existing baselines VSE++
and SCAN with Recall@1/5/10 of 0.1/0.3/0.4 and MRR of 0.2 when ranking 1,000
images. The proposed response generator also surpasses the baseline Divter with
PPL of 16.9, BLEU-1/2 of 0.13/0.03, and Distinct-1/2 of 0.97/0.86, showing a
significant improvement in PPL by -42.8 and BLEU-1/2 by +0.07/0.02. In human
evaluation with a Likert scale of 1-5, the complete multimodal chatbot system
receives higher image-groundedness of 4.3 and engagingness of 4.3, along with
competitive fluency of 4.1, coherence of 3.9, and humanness of 3.1, when
compared to other chatbot variants. The source code is available at:
https://github.com/minniie/multimodal_chat.git.
- Abstract(参考訳): この研究の目的は、人間とチャットし、関連する写真を共有するマルチモーダルAIシステムを作ることだ。
初期の作品は画像内の特定のオブジェクトやシーンに関する対話に限られていたが、最近の作品では画像がオープンドメインの対話に組み込まれている。
しかし、応答生成器は、テキスト入力を受け入れるが、画像入力がないため、対話で共有される画像と矛盾する応答を生成する傾向がある。
そこで本研究では,テキスト理解のための画像検索器と画像理解のための応答生成器という2つのマルチモーダル深層学習モデルを用いた完全なチャットボットシステムを提案する。
ViTおよびBERTによって実装された画像検索装置は、対話履歴と画像データベースとが与えられた最も関連性の高い画像を選択する。
応答生成器は、ViTとGPT-2/DialoGPTによって実装され、対話履歴および最近検索された画像に応じて適切な応答を生成する。
2つのモデルは、各セッションで写真を共有するオープンドメイン対話データセットであるPhotoChatでトレーニングされ、評価される。
自動評価では,既存のベースラインであるVSE++とSCANをRecall@1/5/10の0.1/0.3/0.4,MRRの0.2で上回っている。
提案した応答生成器は、PPLが16.9、BLEU-1/2が0.13/0.03、 Distinct-1/2が0.97/0.86で、PPLが-42.8、BLEU-1/2が+0.07/0.02で大きく改善された。
ニッカートスケール1〜5の人間評価では、完全なマルチモーダルチャットボットシステムは、他のチャットボット変種と比較して、高画質4.3、係り合い4.3、競合フルエンシ4.1、コヒーレンス3.9、人間性3.1を受信する。
ソースコードはhttps://github.com/minniie/multimodal_chat.gitで入手できる。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。
その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Chatting Makes Perfect: Chat-based Image Retrieval [25.452015862927766]
ChatIRはチャットベースの画像検索システムで、ユーザーと会話して情報を抽出する。
大規模言語モデルは、初期画像記述に対するフォローアップ質問を生成するために使用される。
本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができる。
論文 参考訳(メタデータ) (2023-05-31T17:38:08Z) - Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with
Text [130.89493542553151]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。
このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。
画像がインターリーブされた人気テキスト専用C4コーパスの拡張であるMultimodal C4をリリースする。
論文 参考訳(メタデータ) (2023-04-14T06:17:46Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。