論文の概要: Hi Sheldon! Creating Deep Personalized Characters from TV Shows
- arxiv url: http://arxiv.org/abs/2304.11093v1
- Date: Sun, 9 Apr 2023 00:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:59:04.858703
- Title: Hi Sheldon! Creating Deep Personalized Characters from TV Shows
- Title(参考訳): シェルドン!
テレビ番組からパーソナライズされたキャラクターを
- Authors: Meidai Xuanyuan, Yuwang Wang, Honglei Guo, Xiao Ma, Yuchen Guo, Tao
Yu, Qionghai Dai
- Abstract要約: 我々は,テレビ番組などのマルチモーダルデータからマルチモーダルなチャットパーソナライズされた文字を生成する,Deep Personalized Character Creation (DPCC) という新しいタスクを提案する。
単一または複数モードの入力(テキスト、オーディオ、ビデオ)が与えられた場合、DPCCの目標はマルチモードの応答(テキスト、オーディオ、ビデオ)を生成することである。
この課題を支援するために,TV番組から「ディープパーソナライズ・キャラクタ・データセット(DPCD)」という文字中心の多モーダル対話データセットをさらに収集する。
DPCDには10k発話と6時間音声/の文字特異的多モーダル対話データが含まれている。
- 参考スコア(独自算出の注目度): 52.8086853239762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine an interesting multimodal interactive scenario that you can see,
hear, and chat with an AI-generated digital character, who is capable of
behaving like Sheldon from The Big Bang Theory, as a DEEP copy from appearance
to personality. Towards this fantastic multimodal chatting scenario, we propose
a novel task, named Deep Personalized Character Creation (DPCC): creating
multimodal chat personalized characters from multimodal data such as TV shows.
Specifically, given a single- or multi-modality input (text, audio, video), the
goal of DPCC is to generate a multi-modality (text, audio, video) response,
which should be well-matched the personality of a specific character such as
Sheldon, and of high quality as well. To support this novel task, we further
collect a character centric multimodal dialogue dataset, named Deep
Personalized Character Dataset (DPCD), from TV shows. DPCD contains
character-specific multimodal dialogue data of ~10k utterances and ~6 hours of
audio/video per character, which is around 10 times larger compared to existing
related datasets.On DPCD, we present a baseline method for the DPCC task and
create 5 Deep personalized digital Characters (DeepCharacters) from Big Bang TV
Shows. We conduct both subjective and objective experiments to evaluate the
multimodal response from DeepCharacters in terms of characterization and
quality. The results demonstrates that, on our collected DPCD dataset, the
proposed baseline can create personalized digital characters for generating
multimodal response.Our collected DPCD dataset, the code of data collection and
our baseline will be published soon.
- Abstract(参考訳): The Big Bang TheoryのSheldonのように振舞うことができるAI生成のデジタルキャラクタを、外見から人格へのDEPコピーとして見ることができる、興味深いマルチモーダルな対話シナリオを想像してみてほしい。
この素晴らしいマルチモーダルチャットシナリオに向けて,TV番組などのマルチモーダルデータからマルチモーダルチャットパーソナライズされた文字を作成する,Deep Personalized Character Creation (DPCC) という新しいタスクを提案する。
具体的には、単一または複数モードの入力(テキスト、オーディオ、ビデオ)が与えられた場合、DPCCの目標は、複数のモード(テキスト、オーディオ、ビデオ)の応答を生成することである。
この課題を支援するために,TV番組から,Deep Personalized Character Dataset (DPCD) という文字中心の多モーダル対話データセットをさらに収集する。
dpcdには,約10k発話と約6時間の音声/ビデオの文字固有のマルチモーダル対話データが含まれており,既存の関連するデータセットに比べて約10倍大きい。dpcdでは,dpccタスクのベースラインとなる手法を提案し,ビッグバンtv番組から5つの深層デジタル文字(ディープキャラクタ)を作成する。
主観的および客観的な実験を行い, 特徴と品質の観点から, ディープキャラクタからのマルチモーダル応答を評価する。
その結果,提案するベースラインは,収集されたDPCDデータセットに基づいて,マルチモーダル応答を生成するためのパーソナライズされたデジタル文字を生成することが可能であることを実証した。
関連論文リスト
- Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework [29.166067413153353]
大きな言語モデル(LLM)は人間の指示を理解し、高品質なテキストを生成する。
LLMを利用して実世界のキャラクターをシミュレートするCustomisable Conversation Agent Frameworkを導入する。
我々は、自由にカスタマイズ可能なロールプレイングエージェントであるSimsChatを紹介する。
論文 参考訳(メタデータ) (2024-06-25T22:44:17Z) - PSYDIAL: Personality-based Synthetic Dialogue Generation using Large Language Models [4.283022729693451]
本稿では,大規模言語モデルからの応答をプロンプトによって引き出すための,エンドツーエンドのパーソナリティに基づく合成対話データ生成パイプラインを提案する。
提案したパイプラインを用いて,パーソナリティに基づく対話に焦点を当てた韓国初の対話データセットPSYDIALを紹介した。
実験結果から, 事前学習モデルと, チャイトチャットデータセットを用いた微調整モデルでは, 人格を反映する応答を生成するのに苦労する一方で, PSYDIALでトレーニングしたモデルでは, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-04-01T05:19:34Z) - CharacterGLM: Customizing Chinese Conversational AI Characters with
Large Language Models [66.4382820107453]
本稿では,ChatGLM上に構築されたモデルである characterGLM について紹介する。
我々のキャラクタGLMは文字ベースの対話(CharacterDial)を生成するために設計されており、人間固有の社会的欲求と感情的欲求を満たすための文字カスタマイズを備えた対話型AIシステムを実現することを目的としている。
論文 参考訳(メタデータ) (2023-11-28T14:49:23Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - Personality-aware Human-centric Multimodal Reasoning: A New Task,
Dataset and Baselines [32.82738983843281]
我々はPersonality-aware Human-centric Multimodal Reasoning (PHMR) (T1)と呼ばれる新しいタスクを導入する。
課題は、過去の事例から得たマルチモーダル情報を用いて、個性要素を統合しながら、特定の個人の将来行動を予測することである。
実験の結果,性格特性を取り入れることで,人間中心の多モーダル推論性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-05T09:09:10Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Personalized Multimodal Feedback Generation in Education [50.95346877192268]
学校課題の自動評価は、教育分野におけるAIの重要な応用である。
モーダルゲート機構とパーソナライズされたバイアス機構を備えたPMFGN(Personalized Multimodal Feedback Generation Network)を提案する。
我々のモデルは、より正確で多様なフィードバックを生成することによって、いくつかのベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2020-10-31T05:26:49Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。