論文の概要: Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose
Sequences Generation
- arxiv url: http://arxiv.org/abs/2208.09141v1
- Date: Fri, 19 Aug 2022 03:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:06:35.127870
- Title: Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose
Sequences Generation
- Title(参考訳): 符号列生成のためのCodeUnetを用いたベクトル量子拡散モデル
- Authors: Pan Xie, Qipeng Zhang, Zexian Li, Hao Tang, Yao Du, Xiaohui Hu
- Abstract要約: 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。
本稿では,PoseVQ-Diffusionと呼ばれる条件付きポーズ列生成のためのベクトル量子化拡散法を提案する。
そこで我々は,対応するグロス配列に対するポーズ列の変動長を予測するために,新しいk-nearest-neighbours法を開発した。
- 参考スコア(独自算出の注目度): 9.7598934915191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Production (SLP) aims to translate spoken languages into sign
sequences automatically. The core process of SLP is to transform sign gloss
sequences into their corresponding sign pose sequences (G2P). Most existing G2P
models usually perform this conditional long-range generation in an
autoregressive manner, which inevitably leads to an accumulation of errors. To
address this issue, we propose a vector quantized diffusion method for
conditional pose sequences generation, called PoseVQ-Diffusion, which is an
iterative non-autoregressive method. Specifically, we first introduce a vector
quantized variational autoencoder (Pose-VQVAE) model to represent a pose
sequence as a sequence of latent codes. Then we model the latent discrete space
by an extension of the recently developed diffusion architecture. To better
leverage the spatial-temporal information, we introduce a novel architecture,
namely CodeUnet, to generate higher quality pose sequence in the discrete
space. Moreover, taking advantage of the learned codes, we develop a novel
sequential k-nearest-neighbours method to predict the variable lengths of pose
sequences for corresponding gloss sequences. Consequently, compared with the
autoregressive G2P models, our model has a faster sampling speed and produces
significantly better results. Compared with previous non-autoregressive G2P
methods, PoseVQ-Diffusion improves the predicted results with iterative
refinements, thus achieving state-of-the-art results on the SLP evaluation
benchmark.
- Abstract(参考訳): 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。
SLPのコアプロセスは、サイングロス配列を対応するサインポーズシーケンス(G2P)に変換することである。
既存のG2Pモデルは、通常、この条件付き長距離生成を自己回帰的に実行し、必然的にエラーの蓄積につながる。
そこで本研究では, 条件付きポーズ列生成のためのベクトル量子化拡散法として, posevq-diffusion を提案する。
具体的には,まず,ベクトル量子化変分オートエンコーダ(pose-vqvae)モデルを導入し,ポーズ列を潜在符号列として表現する。
次に,最近開発された拡散構造の拡張により,潜在離散空間をモデル化する。
空間時間情報をよりよく活用するために、離散空間における高品質なポーズシーケンスを生成する新しいアーキテクチャ、CodeUnetを導入する。
さらに,学習符号を生かして,対応するグロスシーケンスに対するポーズ列の可変長を予測するための,新しい逐次k-nearest-neighbours法を開発した。
その結果, 自己回帰型G2Pモデルと比較すると, サンプリング速度が速く, より優れた結果が得られることがわかった。
従来の非自己回帰型g2p法と比較して, posevq-diffusion は反復的な改良により予測結果を改善し,slp 評価ベンチマークで最新の結果を得た。
関連論文リスト
- GIVT: Generative Infinite-Vocabulary Transformers [20.849137824404565]
実数値エントリを持つベクトル列を生成する生成無限語彙変換器(GIVT)を導入する。
VQ-GANとMaskGITの画像生成パラダイムにインスパイアされた私たちは、VAEの非定量化実数値列をモデル化するためにGIVTを使用します。
論文 参考訳(メタデータ) (2023-12-04T18:48:02Z) - Discrete Graph Auto-Encoder [52.50288418639075]
離散グラフオートエンコーダ(DGAE)という新しいフレームワークを導入する。
まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換する。
2番目のステップでは、離散潜在表現の集合をソートし、特別に設計された自己回帰モデルを用いてそれらの分布を学習する。
論文 参考訳(メタデータ) (2023-06-13T12:40:39Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling
with Backtracking [98.22870889029114]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練や大きなアーキテクチャ変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Sequence-to-Action: Grammatical Error Correction with Action Guided
Sequence Generation [21.886973310718457]
本稿では,文法的誤り訂正のための新しいSequence-to-Action(S2A)モジュールを提案する。
S2Aモジュールは、ソースとターゲット文を共同で入力とし、トークンレベルのアクションシーケンスを自動的に生成することができる。
我々のモデルはセq2seqベースラインを一貫して上回り、過補正問題を著しく軽減することができる。
論文 参考訳(メタデータ) (2022-05-22T17:47:06Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。