論文の概要: An animated picture says at least a thousand words: Selecting Gif-based
Replies in Multimodal Dialog
- arxiv url: http://arxiv.org/abs/2109.12212v1
- Date: Fri, 24 Sep 2021 21:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:50:09.603075
- Title: An animated picture says at least a thousand words: Selecting Gif-based
Replies in Multimodal Dialog
- Title(参考訳): アニメーション画像が少なくとも1000語を語る:マルチモーダルダイアログにおけるGIFベースの応答の選択
- Authors: Xingyao Wang, David Jurgens
- Abstract要約: 我々は,156万のテキスト-ギフ対話ターンのデータセットを導入し,GIFベースの応答を選択するための多モーダル対話モデルPepe the King Prawnを導入する。
我々は,本モデルが関連性および高品質なGIF応答を生成できることを実証し,実ユーザに対して応答する複数のモデルのランダム化制御試験において,我々のモデルがコミュニティからかなり好まれるGIFで応答することを示す。
- 参考スコア(独自算出の注目度): 5.71097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online conversations include more than just text. Increasingly, image-based
responses such as memes and animated gifs serve as culturally recognized and
often humorous responses in conversation. However, while NLP has broadened to
multimodal models, conversational dialog systems have largely focused only on
generating text replies. Here, we introduce a new dataset of 1.56M text-gif
conversation turns and introduce a new multimodal conversational model Pepe the
King Prawn for selecting gif-based replies. We demonstrate that our model
produces relevant and high-quality gif responses and, in a large randomized
control trial of multiple models replying to real users, we show that our model
replies with gifs that are significantly better received by the community.
- Abstract(参考訳): オンライン会話にはテキスト以上のものが含まれる。
ミームやアニメーションgifのような画像ベースの反応は、会話において文化的に認識され、しばしばユーモラスな反応となる。
しかし,NLPはマルチモーダルモデルに拡張されているものの,対話型対話システムはテキスト応答生成のみに重点を置いている。
ここでは,156万のテキスト-ギフ対話ターンのデータセットを導入し,GIFベースの応答を選択するための多モーダル対話モデルPepe the King Prawnを導入する。
我々は,本モデルが関連性および高品質なGIF応答を生成できることを実証し,実ユーザに対して応答する複数のモデルのランダム化制御試験において,我々のモデルがコミュニティからかなり好まれるGIFで応答することを示す。
関連論文リスト
- MAGID: An Automated Pipeline for Generating Synthetic Multi-modal
Datasets [30.72744231027204]
マルチモーダル対話システムの開発は、リッチでマルチモーダルな(テキスト、画像)対話データ不足によって妨げられている。
textbfMultimodal textbfAugmented textbfGenerative textbfImages textbfDialogues (MAGID)を導入し,多彩で高品質な画像によるテキストのみの対話を強化する。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal
Instruction-Following Models [64.43988773982852]
本稿では,複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesueを紹介した。
本研究では,複数の画像間の理解と推論におけるSparklesChatの有効性を検証した。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (2021-08-16T15:27:49Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。