Fugu-MT 論文翻訳(概要): Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues

論文の概要: Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues

arxiv url: http://arxiv.org/abs/2506.00958v1
Date: Sun, 01 Jun 2025 11:07:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.809311
Title: Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues
Title（参考訳）: 言語を超えて話す: ビデオ付き対話から非言語クイズを学習するための大規模マルチモーダルデータセット
Authors: Youngmin Kim, Jiwan Chung, Jisoo Kim, Sunghyun Lee, Sangkyu Lee, Junhyeok Kim, Cheoljong Yang, Youngjae Yu,
Abstract要約: テキストとともに非言語的手がかりを理解・生成するためのマルチモーダル言語モデルであるMARSを紹介する。私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。
参考スコア（独自算出の注目度）: 19.675409379345172
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Nonverbal communication is integral to human interaction, with gestures, facial expressions, and body language conveying critical aspects of intent and emotion. However, existing large language models (LLMs) fail to effectively incorporate these nonverbal elements, limiting their capacity to create fully immersive conversational experiences. We introduce MARS, a multimodal language model designed to understand and generate nonverbal cues alongside text, bridging this gap in conversational AI. Our key innovation is VENUS, a large-scale dataset comprising annotated videos with time-aligned text, facial expressions, and body language. Leveraging VENUS, we train MARS with a next-token prediction objective, combining text with vector-quantized nonverbal representations to achieve multimodal understanding and generation within a unified framework. Based on various analyses of the VENUS datasets, we validate its substantial scale and high effectiveness. Our quantitative and qualitative results demonstrate that MARS successfully generates text and nonverbal languages, corresponding to conversational input.
Abstract（参考訳）: 非言語コミュニケーションは人間の相互作用に不可欠なものであり、ジェスチャー、表情、身体言語は意図と感情の重要な側面を伝える。しかし、既存の大規模言語モデル(LLM)は、これらの非言語要素を効果的に組み込むことができず、完全に没入的な会話体験を生み出す能力を制限する。我々は、会話型AIにおけるこのギャップを埋め、テキストとともに非言語的手がかりを理解し、生成するために設計されたマルチモーダル言語モデルMARSを紹介する。私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。 VENUSを活用することで、テキストとベクトル量子化された非言語表現を組み合わせることにより、統一されたフレームワーク内でのマルチモーダル理解と生成を実現する。 VENUSデータセットの様々な解析に基づいて、その相当なスケールと高い有効性を検証する。定量的および定性的な結果から,MARSは会話入力に対応してテキストや非言語を生成することができた。

関連論文リスト

The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion [46.01825432018138]
本稿では,多モーダル言語モデルを用いて,言語と非言語を統一する新しいフレームワークを提案する。提案手法は,音声合成における最先端性能を実現する。我々は、現実世界の応用には、人間の動きの言語と非言語を統一することが不可欠であると信じている。
論文参考訳（メタデータ） (2024-12-13T19:33:48Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。 SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。 SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。 MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。 MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文参考訳（メタデータ） (2024-11-21T15:59:29Z)
TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition [35.816500811872196]
本稿では,人間のような認知機能を備えたインテリジェントなヒューマンアクティビティ認識(HAR)システムの実現可能性について検討する。テキスト埋め込みとIoTセンサ信号との整合性を備えた,革新的なアプローチであるIoT-sEnsors- languagealignedmEnt pre-Training(TENT)を提案する。我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
論文参考訳（メタデータ） (2023-11-14T15:30:17Z)
CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文参考訳（メタデータ） (2023-10-18T09:31:56Z)
VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。 VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文参考訳（メタデータ） (2023-10-15T07:58:52Z)
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文参考訳（メタデータ） (2023-09-14T15:34:01Z)
TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文参考訳（メタデータ） (2023-03-27T17:54:32Z)
Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (2023-02-27T18:55:27Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。