論文の概要: G2P-DDM: Generating Sign Pose Sequence from Gloss Sequence with Discrete
Diffusion Model
- arxiv url: http://arxiv.org/abs/2208.09141v3
- Date: Mon, 18 Dec 2023 16:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 03:41:28.807794
- Title: G2P-DDM: Generating Sign Pose Sequence from Gloss Sequence with Discrete
Diffusion Model
- Title(参考訳): G2P-DDM:離散拡散モデルによるグロース系列からの符号列生成
- Authors: Pan Xie, Qipeng Zhang, Taiyi Peng, Hao Tang, Yao Du, Zexian Li
- Abstract要約: Sign Language Productionプロジェクトは、音声言語を手話列に自動的に翻訳することを目的としている。
本稿では,連続ポーズ空間生成問題を離散列生成問題に変換することで,新しい解を提案する。
以上の結果から,我々のモデルは,公共SLP評価ベンチマークにおいて,最先端のG2Pモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 8.047896755805981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Sign Language Production (SLP) project aims to automatically translate
spoken languages into sign sequences. Our approach focuses on the
transformation of sign gloss sequences into their corresponding sign pose
sequences (G2P). In this paper, we present a novel solution for this task by
converting the continuous pose space generation problem into a discrete
sequence generation problem. We introduce the Pose-VQVAE framework, which
combines Variational Autoencoders (VAEs) with vector quantization to produce a
discrete latent representation for continuous pose sequences. Additionally, we
propose the G2P-DDM model, a discrete denoising diffusion architecture for
length-varied discrete sequence data, to model the latent prior. To further
enhance the quality of pose sequence generation in the discrete space, we
present the CodeUnet model to leverage spatial-temporal information. Lastly, we
develop a heuristic sequential clustering method to predict variable lengths of
pose sequences for corresponding gloss sequences. Our results show that our
model outperforms state-of-the-art G2P models on the public SLP evaluation
benchmark. For more generated results, please visit our project page:
\textcolor{blue}{\url{https://slpdiffusier.github.io/g2p-ddm}}
- Abstract(参考訳): Sign Language Production (SLP)プロジェクトは、音声言語を手話列に変換することを目的としている。
本手法は,手話列を対応する手話列(G2P)に変換することに焦点を当てる。
本稿では,連続的なポーズ空間生成問題を離散列生成問題に変換することにより,この課題に対する新しい解を提案する。
本稿では,変分オートエンコーダ(VAE)とベクトル量子化を組み合わせた連続ポーズ列の離散潜在表現を生成するPose-VQVAEフレームワークを提案する。
さらに,遅延先をモデル化するために,長さ可変離散列データに対する離散分別拡散アーキテクチャであるg2p-ddmモデルを提案する。
離散空間におけるポーズ列生成の質をさらに高めるため,空間-時空間情報を活用するコーディネートモデルを提案する。
最後に,対応する用語列に対するポーズ列の可変長を予測できるヒューリスティック・シーケンシャルクラスタリング法を開発した。
以上の結果から,我々のモデルは,公共SLP評価ベンチマークにおいて最先端のG2Pモデルよりも優れていた。
より生成された結果については、プロジェクトページをご覧ください。 \textcolor{blue}{\url{https://slpdiffusier.github.io/g2p-ddm}}
関連論文リスト
- Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文 参考訳(メタデータ) (2024-10-17T04:06:02Z) - IFH: a Diffusion Framework for Flexible Design of Graph Generative Models [53.219279193440734]
グラフ生成モデルは,1行にグラフを生成するワンショットモデルと,ノードとエッジの連続的な付加によるグラフを生成するシーケンシャルモデルという,2つの顕著なファミリーに分類される。
本稿では,逐次度を規定するグラフ生成モデルであるInsert-Fill-Halt(IFH)を提案する。
論文 参考訳(メタデータ) (2024-08-23T16:24:40Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Discrete Graph Auto-Encoder [52.50288418639075]
離散グラフオートエンコーダ(DGAE)という新しいフレームワークを導入する。
まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換する。
2番目のステップでは、離散潜在表現の集合をソートし、特別に設計された自己回帰モデルを用いてそれらの分布を学習する。
論文 参考訳(メタデータ) (2023-06-13T12:40:39Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Sequence-to-Action: Grammatical Error Correction with Action Guided
Sequence Generation [21.886973310718457]
本稿では,文法的誤り訂正のための新しいSequence-to-Action(S2A)モジュールを提案する。
S2Aモジュールは、ソースとターゲット文を共同で入力とし、トークンレベルのアクションシーケンスを自動的に生成することができる。
我々のモデルはセq2seqベースラインを一貫して上回り、過補正問題を著しく軽減することができる。
論文 参考訳(メタデータ) (2022-05-22T17:47:06Z) - A Contextual Latent Space Model: Subsequence Modulation in Melodic
Sequence [0.0]
音楽やテキストなどのシーケンスの生成モデルは、周囲のコンテキストシーケンスを前提として、サブシーケンスのみを編集することができる。
本稿では,ユーザが生成空間の方向感覚でサブシーケンス生成を探索できるように,コンテキスト潜在空間モデル(M)を提案する。
文脈インフォームド事前デコーダはCLSMの生成モデルを構成し、文脈位置インフォームドは推論モデルである。
論文 参考訳(メタデータ) (2021-11-23T07:51:39Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。