論文の概要: Affective Faces for Goal-Driven Dyadic Communication
- arxiv url: http://arxiv.org/abs/2301.10939v1
- Date: Thu, 26 Jan 2023 05:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:21:02.739347
- Title: Affective Faces for Goal-Driven Dyadic Communication
- Title(参考訳): 目標駆動型ディヤドコミュニケーションのための感情的顔
- Authors: Scott Geng, Revant Teotia, Purva Tendulkar, Sachit Menon, and Carl
Vondrick
- Abstract要約: 本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
- 参考スコア(独自算出の注目度): 16.72177738101024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a video framework for modeling the association between verbal
and non-verbal communication during dyadic conversation. Given the input speech
of a speaker, our approach retrieves a video of a listener, who has facial
expressions that would be socially appropriate given the context. Our approach
further allows the listener to be conditioned on their own goals,
personalities, or backgrounds. Our approach models conversations through a
composition of large language models and vision-language models, creating
internal representations that are interpretable and controllable. To study
multimodal communication, we propose a new video dataset of unscripted
conversations covering diverse topics and demographics. Experiments and
visualizations show our approach is able to output listeners that are
significantly more socially appropriate than baselines. However, many
challenges remain, and we release our dataset publicly to spur further
progress. See our website for video results, data, and code:
https://realtalk.cs.columbia.edu.
- Abstract(参考訳): 本稿では,言語間コミュニケーションと非言語間コミュニケーションの関連をモデル化するビデオフレームワークを提案する。
話者の入力音声を考慮すれば,コンテキストに応じて社会的に適切な表情を持つ聞き手の映像を検索する。
我々のアプローチは、リスナーが自身の目標、個性、バックグラウンドを条件付けることを可能にする。
我々のアプローチは、大きな言語モデルと視覚言語モデルの合成を通して会話をモデル化し、解釈可能で制御可能な内部表現を作成する。
マルチモーダルコミュニケーションを研究するために,多種多様なトピックや人口動態を網羅したビデオデータセットを提案する。
実験と可視化は、我々のアプローチがベースラインよりもはるかに社会的に適切であるリスナーを出力できることを示している。
しかし、多くの課題は残っており、さらなる進歩を促すためにデータセットを公開しています。
ビデオ結果、データ、コードについては、私たちのWebサイトを参照してください。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。