論文の概要: JambaTalk: Speech-Driven 3D Talking Head Generation Based on Hybrid Transformer-Mamba Language Model
- arxiv url: http://arxiv.org/abs/2408.01627v1
- Date: Sat, 3 Aug 2024 01:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:20:31.902401
- Title: JambaTalk: Speech-Driven 3D Talking Head Generation Based on Hybrid Transformer-Mamba Language Model
- Title(参考訳): JambaTalk:ハイブリッドトランスフォーマー-マンバ言語モデルに基づく音声駆動型3次元トーキングヘッド生成
- Authors: Farzaneh Jafari, Stefano Berretti, Anup Basu,
- Abstract要約: 本稿では,ハイブリッドトランスフォーマー・マンバモデルであるJambaを用いて3次元顔のアニメーションを作成することを目的とする。
基礎となるJambaブロックに基づいて、マルチモーダル統合による動きの多様性と速度を高めるためにJambaTalkを提案する。
- 参考スコア(独自算出の注目度): 12.27882796952091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, talking head generation has become a focal point for researchers. Considerable effort is being made to refine lip-sync motion, capture expressive facial expressions, generate natural head poses, and achieve high video quality. However, no single model has yet achieved equivalence across all these metrics. This paper aims to animate a 3D face using Jamba, a hybrid Transformers-Mamba model. Mamba, a pioneering Structured State Space Model (SSM) architecture, was designed to address the constraints of the conventional Transformer architecture. Nevertheless, it has several drawbacks. Jamba merges the advantages of both Transformer and Mamba approaches, providing a holistic solution. Based on the foundational Jamba block, we present JambaTalk to enhance motion variety and speed through multimodal integration. Extensive experiments reveal that our method achieves performance comparable or superior to state-of-the-art models.
- Abstract(参考訳): 近年,音声の音声生成が研究者の焦点となっている。
リップシンクの動きを洗練させ、表情をキャプチャし、自然な頭部のポーズを生成し、高い画質を実現するために、考慮すべき努力がなされている。
しかし、これらの指標全てに同値性を持つモデルはまだ存在しない。
本稿では,ハイブリッドトランスフォーマー・マンバモデルであるJambaを用いて3次元顔のアニメーションを作成することを目的とする。
構造化状態空間モデル(Structured State Space Model, SSM)アーキテクチャのパイオニアであるMambaは、従来のTransformerアーキテクチャの制約に対処するために設計された。
しかし、いくつかの欠点がある。
JambaはTransformerとMambaの両アプローチの利点を融合し、全体的なソリューションを提供する。
基礎となるJambaブロックに基づいて、マルチモーダル統合による動きの多様性と速度を高めるためにJambaTalkを提案する。
実験の結果,本手法は最先端モデルに匹敵する性能,あるいは優れた性能を達成できることがわかった。
関連論文リスト
- MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network [40.123744788977525]
我々は,Hybrid Mamba-GCN(Pose Magic)という,注目のない新しいハイブリッドアーキテクチャを提案する。
MambaとGCNの表現を適応的に融合させることで、Pose Magicは基礎となる3D構造を学ぶ上で優れた能力を示している。
実験によると、Pose Magicは74.1%のFLOPを節約しながら新しいSOTA結果を達成する。
論文 参考訳(メタデータ) (2024-08-06T03:15:18Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - Jamba: A Hybrid Transformer-Mamba Language Model [36.52024214648527]
本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
論文 参考訳(メタデータ) (2024-03-28T23:55:06Z) - DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion
Transformer [110.32147183360843]
音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。
最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。
DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
論文 参考訳(メタデータ) (2024-02-08T14:39:16Z) - MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。
MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文 参考訳(メタデータ) (2024-01-08T18:35:07Z) - BANMo: Building Animatable 3D Neural Models from Many Casual Videos [135.64291166057373]
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。
実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
論文 参考訳(メタデータ) (2021-12-23T18:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。