論文の概要: ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input
- arxiv url: http://arxiv.org/abs/2510.17617v1
- Date: Mon, 20 Oct 2025 15:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.492667
- Title: ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input
- Title(参考訳): ImaGGen:言語と画像入力に接地した音声合成ジェスチャのゼロショット生成
- Authors: Hendric Voss, Stefan Kopp,
- Abstract要約: 本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。
我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。
本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human communication combines speech with expressive nonverbal cues such as hand gestures that serve manifold communicative functions. Yet, current generative gesture generation approaches are restricted to simple, repetitive beat gestures that accompany the rhythm of speaking but do not contribute to communicating semantic meaning. This paper tackles a core challenge in co-speech gesture synthesis: generating iconic or deictic gestures that are semantically coherent with a verbal utterance. Such gestures cannot be derived from language input alone, which inherently lacks the visual meaning that is often carried autonomously by gestures. We therefore introduce a zero-shot system that generates gestures from a given language input and additionally is informed by imagistic input, without manual annotation or human intervention. Our method integrates an image analysis pipeline that extracts key object properties such as shape, symmetry, and alignment, together with a semantic matching module that links these visual details to spoken text. An inverse kinematics engine then synthesizes iconic and deictic gestures and combines them with co-generated natural beat gestures for coherent multimodal communication. A comprehensive user study demonstrates the effectiveness of our approach. In scenarios where speech alone was ambiguous, gestures generated by our system significantly improved participants' ability to identify object properties, confirming their interpretability and communicative value. While challenges remain in representing complex shapes, our results highlight the importance of context-aware semantic gestures for creating expressive and collaborative virtual agents or avatars, marking a substantial step forward towards efficient and robust, embodied human-agent interaction. More information and example videos are available here: https://review-anon-io.github.io/ImaGGen.github.io/
- Abstract(参考訳): 人間のコミュニケーションは、表現力のある非言語的手がかりと、多様体のコミュニケーション機能を提供する手振りを組み合わせたものである。
しかし、現在のジェスチャ生成手法は、発話のリズムに付随する単純な反復的ビートジェスチャーに限られるが、意味の伝達には寄与しない。
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。
このようなジェスチャーは言語入力のみから派生することはできないが、本質的にはジェスチャーによってしばしば自律的に行われる視覚的意味を欠いている。
そこで我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知する。
本手法では,形状,対称性,アライメントなどの重要なオブジェクト特性を抽出する画像解析パイプラインと,これらの視覚的詳細を音声テキストにリンクするセマンティックマッチングモジュールを統合する。
逆キネマティクスエンジンは、次に、象徴的かつ難解なジェスチャーを合成し、コヒーレントなマルチモーダル通信のためのコヒーレントな自然なビートジェスチャーと組み合わせる。
総合的なユーザスタディは、我々のアプローチの有効性を示します。
音声のみがあいまいなシナリオでは,本システムによって生成されたジェスチャーにより,対象特性の識別能力が大きく向上し,解釈可能性とコミュニケーション価値が確認された。
複雑な形状を表現する上で課題は残るが、我々の結果は、表現的かつ協調的な仮想エージェントやアバターを作成するための文脈認識のセマンティックジェスチャの重要性を強調し、効率的で堅牢で具体化された人間とエージェントの相互作用に向けて大きな一歩を踏み出した。
詳細とサンプルビデオはこちら。 https://review-anon-io.github.io/ImaGGen.github.io/
関連論文リスト
- Modeling Turn-Taking with Semantically Informed Gestures [56.31369237947851]
マルチパーティDnD Gesture corpusの拡張であるDnD Gesture++に2,663のセマンティックジェスチャアノテーションを付加した。
テキスト,音声,ジェスチャーを統合したMixture-of-Expertsフレームワークを用いてターンテイク予測をモデル化する。
実験により、意味的にガイドされたジェスチャーを組み込むことで、ベースラインよりも一貫したパフォーマンス向上が得られることが示された。
論文 参考訳(メタデータ) (2025-10-22T08:17:54Z) - Intentional Gesture: Deliver Your Intentions with Gestures for Speech [47.34315450130868]
Intentional-Gestureは、ハイレベルなコミュニケーション機能に基づく意図推論タスクとしてジェスチャ生成をキャストする新しいフレームワークである。
我々のフレームワークは、デジタル人間と具体化されたAIにおいて、表現力のあるジェスチャー生成のためのモジュラー基盤を提供する。
論文 参考訳(メタデータ) (2025-05-21T07:24:51Z) - Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャと音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
本稿では,これらの課題を解決するために,3モーダルなビデオ・ジェスチャー・テキスト表現を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T17:55:52Z) - Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。