論文の概要: MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans
- arxiv url: http://arxiv.org/abs/2410.00253v1
- Date: Mon, 30 Sep 2024 21:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:46:17.079741
- Title: MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans
- Title(参考訳): MM-Conv:仮想人間のためのマルチモーダル会話データセット
- Authors: Anna Deichler, Jim O'Regan, Jonas Beskow,
- Abstract要約: 物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
- 参考スコア(独自算出の注目度): 4.098892268127572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel dataset captured using a VR headset to record conversations between participants within a physics simulator (AI2-THOR). Our primary objective is to extend the field of co-speech gesture generation by incorporating rich contextual information within referential settings. Participants engaged in various conversational scenarios, all based on referential communication tasks. The dataset provides a rich set of multimodal recordings such as motion capture, speech, gaze, and scene graphs. This comprehensive dataset aims to enhance the understanding and development of gesture generation models in 3D scenes by providing diverse and contextually rich data.
- Abstract(参考訳): 本稿では,VRヘッドセットを用いて物理シミュレータ(AI2-THOR)内の参加者間の会話を記録する新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
参加者は様々な会話シナリオに携わり、すべて参照コミュニケーションタスクに基づく。
このデータセットは、モーションキャプチャ、スピーチ、視線、シーングラフといった、豊富なマルチモーダル記録を提供する。
この包括的データセットは、多様で文脈的にリッチなデータを提供することにより、3Dシーンにおけるジェスチャー生成モデルの理解と開発を促進することを目的としている。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Towards Open Domain Text-Driven Synthesis of Multi-Person Motions [36.737740727883924]
我々は、大規模な画像とビデオのデータセットからポーズ情報を推定することで、人間のポーズと動きのデータセットをキュレートする。
本手法は,多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。
論文 参考訳(メタデータ) (2024-05-28T18:00:06Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion
and Infinite Data Generation [8.149870655785955]
OmniDataComposerは、マルチモーダルデータ融合と無制限データ生成のための革新的なアプローチである。
6400以上のオブジェクトを識別でき、視覚情報のスペクトルを大幅に広げる。
多様なモダリティを網羅し、モダリティ間の相互強化を促進し、モダリティ間のデータ修正を容易にする。
論文 参考訳(メタデータ) (2023-08-08T08:30:16Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal
Conversations [9.626560177660634]
SIMMC 2.0は、マルチモーダルアシスタントエージェントの構築を成功に導くことを目的としています。
このデータセットは、ショッピングドメイン上のユーザーと仮想アシスタントの間の11Kタスク指向ダイアログ(117K発話)を備えています。
論文 参考訳(メタデータ) (2021-04-18T00:14:29Z) - Situated and Interactive Multimodal Conversations [21.391260370502224]
我々は,Situated Interactive MultiModal Conversations (SIMMC) をトレーニングエージェントの新たな方向性として紹介する。
マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,13K人の対話(169K発話)を総括した2つのSIMMCデータセットを提供する。
本稿では,構造化API予測や応答生成などの客観的評価プロトコルとして,SIMMC内のいくつかのタスクを提示する。
論文 参考訳(メタデータ) (2020-06-02T09:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。