論文の概要: Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose
Sequences Generation
- arxiv url: http://arxiv.org/abs/2208.09141v1
- Date: Fri, 19 Aug 2022 03:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:06:35.127870
- Title: Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose
Sequences Generation
- Title(参考訳): 符号列生成のためのCodeUnetを用いたベクトル量子拡散モデル
- Authors: Pan Xie, Qipeng Zhang, Zexian Li, Hao Tang, Yao Du, Xiaohui Hu
- Abstract要約: 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。
本稿では,PoseVQ-Diffusionと呼ばれる条件付きポーズ列生成のためのベクトル量子化拡散法を提案する。
そこで我々は,対応するグロス配列に対するポーズ列の変動長を予測するために,新しいk-nearest-neighbours法を開発した。
- 参考スコア(独自算出の注目度): 9.7598934915191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Production (SLP) aims to translate spoken languages into sign
sequences automatically. The core process of SLP is to transform sign gloss
sequences into their corresponding sign pose sequences (G2P). Most existing G2P
models usually perform this conditional long-range generation in an
autoregressive manner, which inevitably leads to an accumulation of errors. To
address this issue, we propose a vector quantized diffusion method for
conditional pose sequences generation, called PoseVQ-Diffusion, which is an
iterative non-autoregressive method. Specifically, we first introduce a vector
quantized variational autoencoder (Pose-VQVAE) model to represent a pose
sequence as a sequence of latent codes. Then we model the latent discrete space
by an extension of the recently developed diffusion architecture. To better
leverage the spatial-temporal information, we introduce a novel architecture,
namely CodeUnet, to generate higher quality pose sequence in the discrete
space. Moreover, taking advantage of the learned codes, we develop a novel
sequential k-nearest-neighbours method to predict the variable lengths of pose
sequences for corresponding gloss sequences. Consequently, compared with the
autoregressive G2P models, our model has a faster sampling speed and produces
significantly better results. Compared with previous non-autoregressive G2P
methods, PoseVQ-Diffusion improves the predicted results with iterative
refinements, thus achieving state-of-the-art results on the SLP evaluation
benchmark.
- Abstract(参考訳): 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。
SLPのコアプロセスは、サイングロス配列を対応するサインポーズシーケンス(G2P)に変換することである。
既存のG2Pモデルは、通常、この条件付き長距離生成を自己回帰的に実行し、必然的にエラーの蓄積につながる。
そこで本研究では, 条件付きポーズ列生成のためのベクトル量子化拡散法として, posevq-diffusion を提案する。
具体的には,まず,ベクトル量子化変分オートエンコーダ(pose-vqvae)モデルを導入し,ポーズ列を潜在符号列として表現する。
次に,最近開発された拡散構造の拡張により,潜在離散空間をモデル化する。
空間時間情報をよりよく活用するために、離散空間における高品質なポーズシーケンスを生成する新しいアーキテクチャ、CodeUnetを導入する。
さらに,学習符号を生かして,対応するグロスシーケンスに対するポーズ列の可変長を予測するための,新しい逐次k-nearest-neighbours法を開発した。
その結果, 自己回帰型G2Pモデルと比較すると, サンプリング速度が速く, より優れた結果が得られることがわかった。
従来の非自己回帰型g2p法と比較して, posevq-diffusion は反復的な改良により予測結果を改善し,slp 評価ベンチマークで最新の結果を得た。
関連論文リスト
- Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文 参考訳(メタデータ) (2024-10-17T04:06:02Z) - IFH: a Diffusion Framework for Flexible Design of Graph Generative Models [53.219279193440734]
グラフ生成モデルは,1行にグラフを生成するワンショットモデルと,ノードとエッジの連続的な付加によるグラフを生成するシーケンシャルモデルという,2つの顕著なファミリーに分類される。
本稿では,逐次度を規定するグラフ生成モデルであるInsert-Fill-Halt(IFH)を提案する。
論文 参考訳(メタデータ) (2024-08-23T16:24:40Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Discrete Graph Auto-Encoder [52.50288418639075]
離散グラフオートエンコーダ(DGAE)という新しいフレームワークを導入する。
まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換する。
2番目のステップでは、離散潜在表現の集合をソートし、特別に設計された自己回帰モデルを用いてそれらの分布を学習する。
論文 参考訳(メタデータ) (2023-06-13T12:40:39Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Sequence-to-Action: Grammatical Error Correction with Action Guided
Sequence Generation [21.886973310718457]
本稿では,文法的誤り訂正のための新しいSequence-to-Action(S2A)モジュールを提案する。
S2Aモジュールは、ソースとターゲット文を共同で入力とし、トークンレベルのアクションシーケンスを自動的に生成することができる。
我々のモデルはセq2seqベースラインを一貫して上回り、過補正問題を著しく軽減することができる。
論文 参考訳(メタデータ) (2022-05-22T17:47:06Z) - A Contextual Latent Space Model: Subsequence Modulation in Melodic
Sequence [0.0]
音楽やテキストなどのシーケンスの生成モデルは、周囲のコンテキストシーケンスを前提として、サブシーケンスのみを編集することができる。
本稿では,ユーザが生成空間の方向感覚でサブシーケンス生成を探索できるように,コンテキスト潜在空間モデル(M)を提案する。
文脈インフォームド事前デコーダはCLSMの生成モデルを構成し、文脈位置インフォームドは推論モデルである。
論文 参考訳(メタデータ) (2021-11-23T07:51:39Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。