論文の概要: Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues
- arxiv url: http://arxiv.org/abs/2506.00958v1
- Date: Sun, 01 Jun 2025 11:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.809311
- Title: Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues
- Title(参考訳): 言語を超えて話す: ビデオ付き対話から非言語クイズを学習するための大規模マルチモーダルデータセット
- Authors: Youngmin Kim, Jiwan Chung, Jisoo Kim, Sunghyun Lee, Sangkyu Lee, Junhyeok Kim, Cheoljong Yang, Youngjae Yu,
- Abstract要約: テキストとともに非言語的手がかりを理解・生成するためのマルチモーダル言語モデルであるMARSを紹介する。
私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。
- 参考スコア(独自算出の注目度): 19.675409379345172
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Nonverbal communication is integral to human interaction, with gestures, facial expressions, and body language conveying critical aspects of intent and emotion. However, existing large language models (LLMs) fail to effectively incorporate these nonverbal elements, limiting their capacity to create fully immersive conversational experiences. We introduce MARS, a multimodal language model designed to understand and generate nonverbal cues alongside text, bridging this gap in conversational AI. Our key innovation is VENUS, a large-scale dataset comprising annotated videos with time-aligned text, facial expressions, and body language. Leveraging VENUS, we train MARS with a next-token prediction objective, combining text with vector-quantized nonverbal representations to achieve multimodal understanding and generation within a unified framework. Based on various analyses of the VENUS datasets, we validate its substantial scale and high effectiveness. Our quantitative and qualitative results demonstrate that MARS successfully generates text and nonverbal languages, corresponding to conversational input.
- Abstract(参考訳): 非言語コミュニケーションは人間の相互作用に不可欠なものであり、ジェスチャー、表情、身体言語は意図と感情の重要な側面を伝える。
しかし、既存の大規模言語モデル(LLM)は、これらの非言語要素を効果的に組み込むことができず、完全に没入的な会話体験を生み出す能力を制限する。
我々は、会話型AIにおけるこのギャップを埋め、テキストとともに非言語的手がかりを理解し、生成するために設計されたマルチモーダル言語モデルMARSを紹介する。
私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。
VENUSを活用することで、テキストとベクトル量子化された非言語表現を組み合わせることにより、統一されたフレームワーク内でのマルチモーダル理解と生成を実現する。
VENUSデータセットの様々な解析に基づいて、その相当なスケールと高い有効性を検証する。
定量的および定性的な結果から,MARSは会話入力に対応してテキストや非言語を生成することができた。
関連論文リスト
- Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。
MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。
MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity
Recognition [35.816500811872196]
本稿では,人間のような認知機能を備えたインテリジェントなヒューマンアクティビティ認識(HAR)システムの実現可能性について検討する。
テキスト埋め込みとIoTセンサ信号との整合性を備えた,革新的なアプローチであるIoT-sEnsors- languagealignedmEnt pre-Training(TENT)を提案する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
論文 参考訳(メタデータ) (2023-11-14T15:30:17Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。