Fugu-MT 論文翻訳(概要): Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose Sequences Generation

論文の概要: Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose Sequences Generation

arxiv url: http://arxiv.org/abs/2208.09141v1
Date: Fri, 19 Aug 2022 03:49:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-22 17:06:35.127870
Title: Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose Sequences Generation
Title（参考訳）: 符号列生成のためのCodeUnetを用いたベクトル量子拡散モデル
Authors: Pan Xie, Qipeng Zhang, Zexian Li, Hao Tang, Yao Du, Xiaohui Hu
Abstract要約: 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。本稿では,PoseVQ-Diffusionと呼ばれる条件付きポーズ列生成のためのベクトル量子化拡散法を提案する。そこで我々は,対応するグロス配列に対するポーズ列の変動長を予測するために,新しいk-nearest-neighbours法を開発した。
参考スコア（独自算出の注目度）: 9.7598934915191
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sign Language Production (SLP) aims to translate spoken languages into sign sequences automatically. The core process of SLP is to transform sign gloss sequences into their corresponding sign pose sequences (G2P). Most existing G2P models usually perform this conditional long-range generation in an autoregressive manner, which inevitably leads to an accumulation of errors. To address this issue, we propose a vector quantized diffusion method for conditional pose sequences generation, called PoseVQ-Diffusion, which is an iterative non-autoregressive method. Specifically, we first introduce a vector quantized variational autoencoder (Pose-VQVAE) model to represent a pose sequence as a sequence of latent codes. Then we model the latent discrete space by an extension of the recently developed diffusion architecture. To better leverage the spatial-temporal information, we introduce a novel architecture, namely CodeUnet, to generate higher quality pose sequence in the discrete space. Moreover, taking advantage of the learned codes, we develop a novel sequential k-nearest-neighbours method to predict the variable lengths of pose sequences for corresponding gloss sequences. Consequently, compared with the autoregressive G2P models, our model has a faster sampling speed and produces significantly better results. Compared with previous non-autoregressive G2P methods, PoseVQ-Diffusion improves the predicted results with iterative refinements, thus achieving state-of-the-art results on the SLP evaluation benchmark.
Abstract（参考訳）: 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。 SLPのコアプロセスは、サイングロス配列を対応するサインポーズシーケンス(G2P)に変換することである。既存のG2Pモデルは、通常、この条件付き長距離生成を自己回帰的に実行し、必然的にエラーの蓄積につながる。そこで本研究では, 条件付きポーズ列生成のためのベクトル量子化拡散法として, posevq-diffusion を提案する。具体的には,まず,ベクトル量子化変分オートエンコーダ(pose-vqvae)モデルを導入し,ポーズ列を潜在符号列として表現する。次に,最近開発された拡散構造の拡張により,潜在離散空間をモデル化する。空間時間情報をよりよく活用するために、離散空間における高品質なポーズシーケンスを生成する新しいアーキテクチャ、CodeUnetを導入する。さらに,学習符号を生かして,対応するグロスシーケンスに対するポーズ列の可変長を予測するための,新しい逐次k-nearest-neighbours法を開発した。その結果, 自己回帰型G2Pモデルと比較すると, サンプリング速度が速く, より優れた結果が得られることがわかった。従来の非自己回帰型g2p法と比較して, posevq-diffusion は反復的な改良により予測結果を改善し,slp 評価ベンチマークで最新の結果を得た。

関連論文リスト

Unifying Autoregressive and Diffusion-Based Sequence Generation [2.3923884480793673]
本稿では,拡散に基づく系列生成モデルの拡張について述べる。個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。第2に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文参考訳（メタデータ） (2025-04-08T20:32:10Z)
Text-Driven Diffusion Model for Sign Language Production [13.671593137551268]
我々は,SLRTP Sign Production Challengeに対して,hfut-lmcチームのソリューションを紹介した。この課題は、テキスト入力から意味的に整列された手話ポーズ列を生成することである。我々の解はBLEU-1のスコアを20.17で達成し、挑戦の2位となった。
論文参考訳（メタデータ） (2025-03-20T07:45:27Z)
Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文参考訳（メタデータ） (2024-10-17T04:06:02Z)
IFH: a Diffusion Framework for Flexible Design of Graph Generative Models [53.219279193440734]
グラフ生成モデルは,1行にグラフを生成するワンショットモデルと,ノードとエッジの連続的な付加によるグラフを生成するシーケンシャルモデルという,2つの顕著なファミリーに分類される。本稿では,逐次度を規定するグラフ生成モデルであるInsert-Fill-Halt(IFH)を提案する。
論文参考訳（メタデータ） (2024-08-23T16:24:40Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
Discrete Graph Auto-Encoder [52.50288418639075]
離散グラフオートエンコーダ(DGAE)という新しいフレームワークを導入する。まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換する。 2番目のステップでは、離散潜在表現の集合をソートし、特別に設計された自己回帰モデルを用いてそれらの分布を学習する。
論文参考訳（メタデータ） (2023-06-13T12:40:39Z)
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文参考訳（メタデータ） (2023-06-08T17:59:58Z)
A Framework for Bidirectional Decoding: Case Study in Morphological Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文参考訳（メタデータ） (2023-05-21T22:08:31Z)
Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。 512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文参考訳（メタデータ） (2023-05-08T14:49:01Z)
Sequence-to-Action: Grammatical Error Correction with Action Guided Sequence Generation [21.886973310718457]
本稿では,文法的誤り訂正のための新しいSequence-to-Action(S2A)モジュールを提案する。 S2Aモジュールは、ソースとターゲット文を共同で入力とし、トークンレベルのアクションシーケンスを自動的に生成することができる。我々のモデルはセq2seqベースラインを一貫して上回り、過補正問題を著しく軽減することができる。
論文参考訳（メタデータ） (2022-05-22T17:47:06Z)
A Contextual Latent Space Model: Subsequence Modulation in Melodic Sequence [0.0]
音楽やテキストなどのシーケンスの生成モデルは、周囲のコンテキストシーケンスを前提として、サブシーケンスのみを編集することができる。本稿では,ユーザが生成空間の方向感覚でサブシーケンス生成を探索できるように,コンテキスト潜在空間モデル(M)を提案する。文脈インフォームド事前デコーダはCLSMの生成モデルを構成し、文脈位置インフォームドは推論モデルである。
論文参考訳（メタデータ） (2021-11-23T07:51:39Z)
Structured Reordering for Modeling Latent Alignments in Sequence Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文参考訳（メタデータ） (2021-06-06T21:53:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。