論文の概要: MPCHAT: Towards Multimodal Persona-Grounded Conversation
- arxiv url: http://arxiv.org/abs/2305.17388v1
- Date: Sat, 27 May 2023 06:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:45:45.805185
- Title: MPCHAT: Towards Multimodal Persona-Grounded Conversation
- Title(参考訳): mpchat: マルチモーダルなパーソナライズド会話に向けて
- Authors: Jaewoo Ahn, Yeda Song, Sangdoo Yun, Gunhee Kim
- Abstract要約: 我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
- 参考スコア(独自算出の注目度): 54.800425322314105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to build self-consistent personalized dialogue agents, previous
research has mostly focused on textual persona that delivers personal facts or
personalities. However, to fully describe the multi-faceted nature of persona,
image modality can help better reveal the speaker's personal characteristics
and experiences in episodic memory (Rubin et al., 2003; Conway, 2009). In this
work, we extend persona-based dialogue to the multimodal domain and make two
main contributions. First, we present the first multimodal persona-based
dialogue dataset named MPCHAT, which extends persona with both text and images
to contain episodic memories. Second, we empirically show that incorporating
multimodal persona, as measured by three proposed multimodal persona-grounded
dialogue tasks (i.e., next response prediction, grounding persona prediction,
and speaker identification), leads to statistically significant performance
improvements across all tasks. Thus, our work highlights that multimodal
persona is crucial for improving multimodal dialogue comprehension, and our
MPCHAT serves as a high-quality resource for this research.
- Abstract(参考訳): 自己一貫性のある対話エージェントを構築するために、これまでの研究は主に個人的事実や個性を提供するテキストペルソナに焦点を当ててきた。
しかし、ペルソナの多面的な性質を十分に説明するために、イメージモダリティは、エピソード記憶における話者の個人的特徴と経験を明らかにするのに役立つ(Rubin et al., 2003; Conway, 2009)。
本研究では,ペルソナベースの対話をマルチモーダルドメインに拡張し,2つの大きな貢献を行う。
まず,テキストと画像の両方でペルソナを拡張するmpchatという,マルチモーダルペルソナベースの対話データセットを提案する。
第2に,マルチモーダル・パーソナラの導入は,提案する3つの対話タスク(すなわち,次の応答予測,パーソナラ予測,話者識別)によって測定され,すべてのタスクにおいて統計的に有意なパフォーマンス改善をもたらすことを実証的に示す。
そこで本研究では,マルチモーダル・ペルソナが多モーダル・対話の理解向上に不可欠であること,MPCHATが研究の質の高い情報源であることを示す。
関連論文リスト
- M3TCM: Multi-modal Multi-task Context Model for Utterance Classification in Motivational Interviews [1.8100046713740954]
発話分類のためのマルチモーダル・マルチタスクコンテキストモデルであるM3TCMを提案する。
われわれのアプローチでは、マルチタスク学習を用いて、セラピストとクライアントの振る舞いのジョイントコンポーネントと個別コンポーネントの両方を効果的にモデル化する。
提案手法により,最近導入されたAnnoMIデータセットの発話分類技術は,クライアントで20%,セラピストで15%向上した。
論文 参考訳(メタデータ) (2024-04-04T09:17:22Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Enhancing Personalized Dialogue Generation with Contrastive Latent
Variables: Combining Sparse and Dense Persona [16.90863217077699]
既存のパーソナライズされた対話エージェントは、スパースまたは密集したペルソナ記述と対話履歴という3つのリソースからペルソナプロファイルをモデル化する。
3つのリソースの利点を組み合わせて、より豊かで正確なペルソナを得る。
中国語と英語のデータセットに対する実験結果は、パーソナライゼーションにおけるモデルの優位性を示している。
論文 参考訳(メタデータ) (2023-05-19T07:24:27Z) - Speaker Profiling in Multiparty Conversations [31.518453682472575]
本研究では,会話における話者プロファイリング(SPC)の課題について検討する。
SPCの主な目的は、対話に存在する各話者について、ペルソナの特徴の要約を作成することである。
SPCの課題に対処するため、私たちはSPICEという名前の新しいデータセットをキュレートしました。
論文 参考訳(メタデータ) (2023-04-18T08:04:46Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation
Understanding [58.95156916558384]
MPC理解のための事前学習モデルであるMPC-BERTを提案する。
我々は,MPC-BERTを,話者認識,話者識別,応答選択を含む3つの下流タスクで評価した。
論文 参考訳(メタデータ) (2021-06-03T01:49:12Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Detecting depression in dyadic conversations with multimodal narratives
and visualizations [1.4824891788575418]
本稿では,人間による会話の分析を支援するシステムを開発する。
本研究では,マルチモーダル情報を広範囲に取り込み,個人の抑うつ状態を予測するための予測スコアを自動生成するシステムについて述べる。
論文 参考訳(メタデータ) (2020-01-13T10:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。