論文の概要: Modeling Turn-Taking with Semantically Informed Gestures
- arxiv url: http://arxiv.org/abs/2510.19350v1
- Date: Wed, 22 Oct 2025 08:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.345918
- Title: Modeling Turn-Taking with Semantically Informed Gestures
- Title(参考訳): 意味的インフォームド・ジェスチャを用いたターンタイキングのモデル化
- Authors: Varsha Suresh, M. Hamza Mughal, Christian Theobalt, Vera Demberg,
- Abstract要約: マルチパーティDnD Gesture corpusの拡張であるDnD Gesture++に2,663のセマンティックジェスチャアノテーションを付加した。
テキスト,音声,ジェスチャーを統合したMixture-of-Expertsフレームワークを用いてターンテイク予測をモデル化する。
実験により、意味的にガイドされたジェスチャーを組み込むことで、ベースラインよりも一貫したパフォーマンス向上が得られることが示された。
- 参考スコア(独自算出の注目度): 56.31369237947851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In conversation, humans use multimodal cues, such as speech, gestures, and gaze, to manage turn-taking. While linguistic and acoustic features are informative, gestures provide complementary cues for modeling these transitions. To study this, we introduce DnD Gesture++, an extension of the multi-party DnD Gesture corpus enriched with 2,663 semantic gesture annotations spanning iconic, metaphoric, deictic, and discourse types. Using this dataset, we model turn-taking prediction through a Mixture-of-Experts framework integrating text, audio, and gestures. Experiments show that incorporating semantically guided gestures yields consistent performance gains over baselines, demonstrating their complementary role in multimodal turn-taking.
- Abstract(参考訳): 会話において、人間はターンテイクを管理するために、スピーチ、ジェスチャー、視線などのマルチモーダルな手がかりを使用する。
言語的特徴と音響的特徴は有益であるが、ジェスチャーはこれらの遷移をモデル化するための補完的な手がかりを提供する。
そこで我々はDnD Gesture++について紹介する。DnD Gesture++はDnD Gestureコーパスの拡張であり,2,663のセマンティックなジェスチャアノテーションを具体化したものである。
このデータセットを用いて、テキスト、音声、ジェスチャーを統合するMixture-of-Expertsフレームワークを用いて、ターンテイク予測をモデル化する。
セマンティックガイドされたジェスチャーを組み込むことで、ベースラインよりも一貫したパフォーマンスが向上し、マルチモーダルなターンテイクにおけるそれらの補完的な役割が示される。
関連論文リスト
- Pragmatic Frames Evoked by Gestures: A FrameNet Brasil Approach to Multimodality in Turn Organization [0.43348187554755113]
Frame2データセットには、ブラジルのテレビシリーズ『Pedro Pelo Mundo』の10エピソードがビデオとテキストの両方で誘発されるセマンティックフレームに注釈付けされている。
その結果, 対面会話に関わるコミュニケーション者は, 会話の交替, 受け取り, 維持のためのツールとして, ジェスチャーを活用できることが確認された。
これらのジェスチャーの使用は、心的空間、ブレンディング、概念的メタファーを含む実用的フレームの概念化から生じると考えられる。
論文 参考訳(メタデータ) (2025-09-11T19:14:57Z) - SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。
提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2025-07-25T15:10:15Z) - Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。