論文の概要: Building Multimodal AI Chatbots
- arxiv url: http://arxiv.org/abs/2305.03512v1
- Date: Fri, 21 Apr 2023 16:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-14 21:05:50.595527
- Title: Building Multimodal AI Chatbots
- Title(参考訳): マルチモーダルAIチャットボットの構築
- Authors: Min Young Lee
- Abstract要約: この研究の目的は、人間とチャットし、関連する写真を共有するマルチモーダルAIシステムを作ることだ。
テキストを理解する画像検索器と、画像を理解する応答生成器の2つのマルチモーダルディープラーニングモデルを提案する。
2つのモデルは、各セッションで写真を共有するオープンドメインの対話データセットであるPhotoChatでトレーニングされ、評価される。
- 参考スコア(独自算出の注目度): 2.1987180245567246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims to create a multimodal AI system that chats with humans and
shares relevant photos. While earlier works were limited to dialogues about
specific objects or scenes within images, recent works have incorporated images
into open-domain dialogues. However, their response generators are unimodal,
accepting text input but no image input, thus prone to generating responses
contradictory to the images shared in the dialogue. Therefore, this work
proposes a complete chatbot system using two multimodal deep learning models:
an image retriever that understands texts and a response generator that
understands images. The image retriever, implemented by ViT and BERT, selects
the most relevant image given the dialogue history and a database of images.
The response generator, implemented by ViT and GPT-2/DialoGPT, generates an
appropriate response given the dialogue history and the most recently retrieved
image. The two models are trained and evaluated on PhotoChat, an open-domain
dialogue dataset in which a photo is shared in each session. In automatic
evaluation, the proposed image retriever outperforms existing baselines VSE++
and SCAN with Recall@1/5/10 of 0.1/0.3/0.4 and MRR of 0.2 when ranking 1,000
images. The proposed response generator also surpasses the baseline Divter with
PPL of 16.9, BLEU-1/2 of 0.13/0.03, and Distinct-1/2 of 0.97/0.86, showing a
significant improvement in PPL by -42.8 and BLEU-1/2 by +0.07/0.02. In human
evaluation with a Likert scale of 1-5, the complete multimodal chatbot system
receives higher image-groundedness of 4.3 and engagingness of 4.3, along with
competitive fluency of 4.1, coherence of 3.9, and humanness of 3.1, when
compared to other chatbot variants. The source code is available at:
https://github.com/minniie/multimodal_chat.git.
- Abstract(参考訳): この研究の目的は、人間とチャットし、関連する写真を共有するマルチモーダルAIシステムを作ることだ。
初期の作品は画像内の特定のオブジェクトやシーンに関する対話に限られていたが、最近の作品では画像がオープンドメインの対話に組み込まれている。
しかし、応答生成器は、テキスト入力を受け入れるが、画像入力がないため、対話で共有される画像と矛盾する応答を生成する傾向がある。
そこで本研究では,テキスト理解のための画像検索器と画像理解のための応答生成器という2つのマルチモーダル深層学習モデルを用いた完全なチャットボットシステムを提案する。
ViTおよびBERTによって実装された画像検索装置は、対話履歴と画像データベースとが与えられた最も関連性の高い画像を選択する。
応答生成器は、ViTとGPT-2/DialoGPTによって実装され、対話履歴および最近検索された画像に応じて適切な応答を生成する。
2つのモデルは、各セッションで写真を共有するオープンドメイン対話データセットであるPhotoChatでトレーニングされ、評価される。
自動評価では,既存のベースラインであるVSE++とSCANをRecall@1/5/10の0.1/0.3/0.4,MRRの0.2で上回っている。
提案した応答生成器は、PPLが16.9、BLEU-1/2が0.13/0.03、 Distinct-1/2が0.97/0.86で、PPLが-42.8、BLEU-1/2が+0.07/0.02で大きく改善された。
ニッカートスケール1〜5の人間評価では、完全なマルチモーダルチャットボットシステムは、他のチャットボット変種と比較して、高画質4.3、係り合い4.3、競合フルエンシ4.1、コヒーレンス3.9、人間性3.1を受信する。
ソースコードはhttps://github.com/minniie/multimodal_chat.gitで入手できる。
関連論文リスト
- MAGID: An Automated Pipeline for Generating Synthetic Multi-modal
Datasets [30.72744231027204]
マルチモーダル対話システムの開発は、リッチでマルチモーダルな(テキスト、画像)対話データ不足によって妨げられている。
textbfMultimodal textbfAugmented textbfGenerative textbfImages textbfDialogues (MAGID)を導入し,多彩で高品質な画像によるテキストのみの対話を強化する。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - Compress & Align: Curating Image-Text Data with Human Knowledge [36.34714164235438]
本稿では,ウェブクローリングされた画像テキストデータセットをコンパクトで高品質な形式に圧縮するための,人間の知識に根ざした新しいアルゴリズムを提案する。
注釈付きデータセットの報酬モデルは、画像とテキストのアライメントに関する微妙な人間の理解を内包する。
実験では、画像テキストデータセットを最大90%圧縮することで、モデルのパフォーマンスを確保(あるいは改善)できることを示した。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal
Instruction-Following Models [64.43988773982852]
本稿では,複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesueを紹介した。
本研究では,複数の画像間の理解と推論におけるSparklesChatの有効性を検証した。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - Chatting Makes Perfect: Chat-based Image Retrieval [25.452015862927766]
ChatIRはチャットベースの画像検索システムで、ユーザーと会話して情報を抽出する。
大規模言語モデルは、初期画像記述に対するフォローアップ質問を生成するために使用される。
本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができる。
論文 参考訳(メタデータ) (2023-05-31T17:38:08Z) - Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with
Text [130.89493542553151]
テキスト内ビジョンやFlamingoのような言語モデルは、任意のインターリーブされた画像とテキストのシーケンスを入力としてサポートする。
このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。
画像がインターリーブされた人気テキスト専用C4コーパスの拡張であるMultimodal C4をリリースする。
論文 参考訳(メタデータ) (2023-04-14T06:17:46Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。