Fugu-MT 論文翻訳(概要): An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog

論文の概要: An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog

arxiv url: http://arxiv.org/abs/2109.12212v1
Date: Fri, 24 Sep 2021 21:48:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-28 15:50:09.603075
Title: An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog
Title（参考訳）: アニメーション画像が少なくとも1000語を語る:マルチモーダルダイアログにおけるGIFベースの応答の選択
Authors: Xingyao Wang, David Jurgens
Abstract要約: 我々は,156万のテキスト-ギフ対話ターンのデータセットを導入し,GIFベースの応答を選択するための多モーダル対話モデルPepe the King Prawnを導入する。我々は,本モデルが関連性および高品質なGIF応答を生成できることを実証し,実ユーザに対して応答する複数のモデルのランダム化制御試験において,我々のモデルがコミュニティからかなり好まれるGIFで応答することを示す。
参考スコア（独自算出の注目度）: 5.71097144710995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online conversations include more than just text. Increasingly, image-based responses such as memes and animated gifs serve as culturally recognized and often humorous responses in conversation. However, while NLP has broadened to multimodal models, conversational dialog systems have largely focused only on generating text replies. Here, we introduce a new dataset of 1.56M text-gif conversation turns and introduce a new multimodal conversational model Pepe the King Prawn for selecting gif-based replies. We demonstrate that our model produces relevant and high-quality gif responses and, in a large randomized control trial of multiple models replying to real users, we show that our model replies with gifs that are significantly better received by the community.
Abstract（参考訳）: オンライン会話にはテキスト以上のものが含まれる。ミームやアニメーションgifのような画像ベースの反応は、会話において文化的に認識され、しばしばユーモラスな反応となる。しかし,NLPはマルチモーダルモデルに拡張されているものの,対話型対話システムはテキスト応答生成のみに重点を置いている。ここでは,156万のテキスト-ギフ対話ターンのデータセットを導入し,GIFベースの応答を選択するための多モーダル対話モデルPepe the King Prawnを導入する。我々は,本モデルが関連性および高品質なGIF応答を生成できることを実証し,実ユーザに対して応答する複数のモデルのランダム化制御試験において,我々のモデルがコミュニティからかなり好まれるGIFで応答することを示す。

関連論文リスト

OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions [50.705439960008235]
我々は,オンラインマルチモーダル対話応答生成(OMCRG)を紹介した。我々は,高品質なマルチモーダルリスナ応答を自動生成するMLLM(Multimodal Large Language Model)であるOmniResponseを提案する。我々は、同期分割画面ビデオ、マルチチャンネルオーディオ、転写、顔行動アノテーションを含む696の高品質なダイアディックインタラクションからなる新しいデータセットであるResponseNetを提案する。
論文参考訳（メタデータ） (2025-05-27T20:12:46Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文参考訳（メタデータ） (2024-08-12T05:22:42Z)
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文参考訳（メタデータ） (2024-06-12T04:48:36Z)
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文参考訳（メタデータ） (2024-04-10T02:32:58Z)
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-03-05T18:31:28Z)
Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。 MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文参考訳（メタデータ） (2023-08-31T05:15:27Z)
TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文参考訳（メタデータ） (2023-01-14T10:18:22Z)
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。既存の手法のほとんどは、一人称音声音声生成に重点を置いている。ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-15T14:16:49Z)
Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文参考訳（メタデータ） (2021-10-16T08:52:26Z)
Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文参考訳（メタデータ） (2020-01-17T14:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。