論文の概要: Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis
- arxiv url: http://arxiv.org/abs/2412.06786v1
- Date: Mon, 09 Dec 2024 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:15.519381
- Title: Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis
- Title(参考訳): 深部からのセマンティクスの回収:ジェスチャー合成のためのRAGソリューション
- Authors: M. Hamza Mughal, Rishabh Dabral, Merel C. J. Scholman, Vera Demberg, Christian Theobalt,
- Abstract要約: RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
- 参考スコア(独自算出の注目度): 55.45253486141108
- License:
- Abstract: Non-verbal communication often comprises of semantically rich gestures that help convey the meaning of an utterance. Producing such semantic co-speech gestures has been a major challenge for the existing neural systems that can generate rhythmic beat gestures, but struggle to produce semantically meaningful gestures. Therefore, we present RAG-Gesture, a diffusion-based gesture generation approach that leverages Retrieval Augmented Generation (RAG) to produce natural-looking and semantically rich gestures. Our neuro-explicit gesture generation approach is designed to produce semantic gestures grounded in interpretable linguistic knowledge. We achieve this by using explicit domain knowledge to retrieve exemplar motions from a database of co-speech gestures. Once retrieved, we then inject these semantic exemplar gestures into our diffusion-based gesture generation pipeline using DDIM inversion and retrieval guidance at the inference time without any need of training. Further, we propose a control paradigm for guidance, that allows the users to modulate the amount of influence each retrieval insertion has over the generated sequence. Our comparative evaluations demonstrate the validity of our approach against recent gesture generation approaches. The reader is urged to explore the results on our project page.
- Abstract(参考訳): 非言語コミュニケーションはしばしば、発話の意味を伝えるのに役立つ意味的にリッチなジェスチャーから構成される。
このような意味論的コ音声ジェスチャーの生成は、リズミカルビートジェスチャーを生成することができるが、意味論的に意味のあるジェスチャーを生成するのに苦労する既存のニューラルネットワークにとって、大きな課題である。
そこで本研究では,RAG(Retrieval Augmented Generation)を利用した拡散に基づくジェスチャ生成手法であるRAG-Gestureを提案する。
本手法は,解釈可能な言語知識に基づく意味的ジェスチャーを生成するために設計されている。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから模範動作を検索する。
一旦検索すると,DDIMのインバージョンと検索誘導を用いて,これらのセマンティックなジェスチャを拡散に基づくジェスチャ生成パイプラインに注入する。
さらに、ユーザが生成したシーケンスに対して、各検索挿入が持つ影響量を調整できるガイダンス制御パラダイムを提案する。
近年のジェスチャー生成手法に対するアプローチの有効性を比較検討した。
読者は私たちのプロジェクトページで結果を探求するよう促されます。
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio
Representation [18.04996323708772]
本稿では,2023年度のGenEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challengeのために開発されたシステムについて述べる。
本研究では,音声とジェスチャーの組込み学習を行うCSMPモジュールを提案する。
CSMPモジュールの出力は拡散に基づくジェスチャー合成モデルにおける条件付け信号として使用される。
論文 参考訳(メタデータ) (2023-09-11T13:51:06Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - GesGPT: Speech Gesture Synthesis With Text Parsing from ChatGPT [8.18076191897917]
ジェスチャー合成は重要な研究分野として注目されている。
深層学習に基づくアプローチは目覚ましい進歩を遂げているが、テキストに存在するリッチな意味情報を見落としていることが多い。
本稿では,大規模言語モデルの意味解析機能を活用したジェスチャ生成手法であるGesGPTを提案する。
論文 参考訳(メタデータ) (2023-03-23T03:30:30Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。