Fugu-MT 論文翻訳(概要): Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality

論文の概要: Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality

arxiv url: http://arxiv.org/abs/2406.12544v1
Date: Tue, 18 Jun 2024 12:23:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 19:17:37.186007
Title: Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality
Title（参考訳）: 表現ジェスチャの自動生成説明への統合とその理解と相互作用品質への影響
Authors: Amelie Sophie Robrecht, Hendric Voss, Lisa Gottschalk, Stefan Kopp,
Abstract要約: 本研究では,異なる種類のジェスチャーが相互作用の質や聴取者の理解にどのように影響するかを検討する。我々のモデルは、学習した音声駆動モジュールが生成したビートジェスチャーと、手動でキャプチャした象徴的ジェスチャーを組み合わせる。発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In human interaction, gestures serve various functions such as marking speech rhythm, highlighting key elements, and supplementing information. These gestures are also observed in explanatory contexts. However, the impact of gestures on explanations provided by virtual agents remains underexplored. A user study was carried out to investigate how different types of gestures influence perceived interaction quality and listener understanding. This study addresses the effect of gestures in explanation by developing an embodied virtual explainer integrating both beat gestures and iconic gestures to enhance its automatically generated verbal explanations. Our model combines beat gestures generated by a learned speech-driven synthesis module with manually captured iconic gestures, supporting the agent's verbal expressions about the board game Quarto! as an explanation scenario. Findings indicate that neither the use of iconic gestures alone nor their combination with beat gestures outperforms the baseline or beat-only conditions in terms of understanding. Nonetheless, compared to prior research, the embodied agent significantly enhances understanding.
Abstract（参考訳）: ヒューマンインタラクションでは、ジェスチャーは、音声リズムのマーキング、キー要素のハイライト、情報補完といった様々な機能を提供します。これらの動作は説明的文脈でも観察される。しかし、仮想エージェントが提供する説明に対するジェスチャーの影響は未解明のままである。対話の質と聴取者の理解に異なる種類のジェスチャーがどのような影響を及ぼすかを調べるために,ユーザスタディを行った。本研究では,ビートジェスチャーと象徴的ジェスチャーを一体化して,自動生成した音声説明を強化する仮想説明器を開発することで,説明におけるジェスチャーの効果を考察する。本モデルでは,学習した音声駆動合成モジュールが生成したビートジェスチャーと手動でキャプチャしたアイコン的ジェスチャーを組み合わせることで,ボードゲームQuarto!に関するエージェントの言葉表現を説明シナリオとしてサポートする。発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。それにもかかわらず、先行研究と比較して、エンボディ化剤は理解を著しく向上させる。

関連論文リスト

Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-28T17:55:52Z)
Large Language Models for Virtual Human Gesture Selection [0.3749861135832072]
共同音声ジェスチャーは様々な意味を伝達し、対面する人間の相互作用において重要な役割を果たす。本研究では,大規模言語モデルのセマンティック機能を用いて,意味のある適切な音声合成手法を提案するジェスチャー選択手法を提案する。
論文参考訳（メタデータ） (2025-03-18T16:49:56Z)
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-09T18:59:46Z)
Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:22:59Z)
Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation [4.216085185442862]
対面対話では, 文脈的要因によって, 話し言葉の形式的意味の関係が変化する。ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法本稿では,自己指導型コントラスト学習技術を用いて,骨格情報と音声情報からジェスチャー表現を学習する。
論文参考訳（メタデータ） (2024-08-31T08:53:18Z)
Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文参考訳（メタデータ） (2024-07-11T02:14:06Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文参考訳（メタデータ） (2024-05-16T05:09:01Z)
Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文参考訳（メタデータ） (2024-04-29T13:58:03Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文参考訳（メタデータ） (2021-08-12T14:16:00Z)
Gesticulator: A framework for semantically-aware speech-driven gesture generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文参考訳（メタデータ） (2020-01-25T14:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。