論文の概要: Conveying Meaning through Gestures: An Investigation into Semantic Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2510.17599v1
- Date: Mon, 20 Oct 2025 14:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.486911
- Title: Conveying Meaning through Gestures: An Investigation into Semantic Co-Speech Gesture Generation
- Title(参考訳): ジェスチャによる意味の伝達:セマンティック・コ・スポーク・ジェスチャ生成に関する研究
- Authors: Hendric Voss, Lisa Michelle Bohnenkamp, Stefan Kopp,
- Abstract要約: 本研究では,共同音声ジェスチャ生成のための2つのフレームワークであるAQ-GTとその意味的に拡張された変種AQ-GT-aについて検討する。
SAGA空間コミュニケーションコーパスの文を用いて,概念認識と人間類似性の評価を行った。
その結果,意味的アノテーションとパフォーマンスの関係は曖昧であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study explores two frameworks for co-speech gesture generation, AQ-GT and its semantically-augmented variant AQ-GT-a, to evaluate their ability to convey meaning through gestures and how humans perceive the resulting movements. Using sentences from the SAGA spatial communication corpus, contextually similar sentences, and novel movement-focused sentences, we conducted a user-centered evaluation of concept recognition and human-likeness. Results revealed a nuanced relationship between semantic annotations and performance. The original AQ-GT framework, lacking explicit semantic input, was surprisingly more effective at conveying concepts within its training domain. Conversely, the AQ-GT-a framework demonstrated better generalization, particularly for representing shape and size in novel contexts. While participants rated gestures from AQ-GT-a as more expressive and helpful, they did not perceive them as more human-like. These findings suggest that explicit semantic enrichment does not guarantee improved gesture generation and that its effectiveness is highly dependent on the context, indicating a potential trade-off between specialization and generalization.
- Abstract(参考訳): 本研究では,共同音声ジェスチャ生成のための2つのフレームワークであるAQ-GTとその意味的に拡張された変種であるAQ-GT-aについて検討し,ジェスチャーを通して意味を伝える能力と,人間がどのような動きを知覚するかを評価する。
SAGA空間コミュニケーションコーパスの文,文脈的に類似した文,新しい動きに着目した文を用いて,概念認識と人間的類似性をユーザ中心で評価した。
その結果,意味的アノテーションとパフォーマンスの関係は曖昧であった。
オリジナルのAQ-GTフレームワークは、明示的なセマンティック入力が欠如しており、トレーニング領域内の概念を伝えるのに驚くほど効果的であった。
逆に、AQ-GT-aフレームワークは、特に新しい文脈における形状と大きさを表すために、より良い一般化を示した。
参加者は、AQ-GT-aのジェスチャーをより表現的で役に立つものと評価したが、より人間らしく認識することはなかった。
これらの結果は、明示的な意味豊かさはジェスチャー生成の改善を保証せず、その効果が文脈に大きく依存していることを示し、特殊化と一般化のトレードオフの可能性を示している。
関連論文リスト
- Artemis: Structured Visual Reasoning for Perception Policy Learning [64.57381337070616]
経験的観察は、純粋に言語的な中間的推論が知覚タスクのパフォーマンスを低下させることを示している。
本稿では,構造化提案に基づく推論を行う認知政治学習フレームワークであるArtemisを紹介する。
論文 参考訳(メタデータ) (2025-12-01T18:45:30Z) - SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。
提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2025-07-25T15:10:15Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality [0.0]
本研究では,異なる種類のジェスチャーが相互作用の質や聴取者の理解にどのように影響するかを検討する。
我々のモデルは、学習した音声駆動モジュールが生成したビートジェスチャーと、手動でキャプチャした象徴的ジェスチャーを組み合わせる。
発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-18T12:23:00Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。
視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。
モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文 参考訳(メタデータ) (2024-04-29T13:58:03Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - On (Emergent) Systematic Generalisation and Compositionality in Visual
Referential Games with Straight-Through Gumbel-Softmax Estimator [0.30458514384586394]
2人(またはそれ以上)のエージェントが非視覚的な参照ゲームを行うと、構成性のドライバが現れる。
本稿では,ST-GSの文脈において,これまでフィールドで認識されてきた構成性の要因がどの程度適用されているかを検討する。
st-gsアプローチを小さなバッチサイズとオーバーコンプリート通信チャネルで使用することで、新興言語のコンポジション性が向上する。
論文 参考訳(メタデータ) (2020-12-19T20:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。