論文の概要: Pose-Guided Sign Language Video GAN with Dynamic Lambda
- arxiv url: http://arxiv.org/abs/2105.02742v1
- Date: Thu, 6 May 2021 15:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 16:00:27.505273
- Title: Pose-Guided Sign Language Video GAN with Dynamic Lambda
- Title(参考訳): 動的ラムダを用いたPose-Guided Sign Language Video GAN
- Authors: Christopher Kissel, Christopher K\"ummel, Dennis Ritter, Kristian
Hildebrand
- Abstract要約: 我々は,gansを用いた手話ビデオの新しい手法を提案する。
我々は,ソフトゲートワープガンの人間意味合成を用いて,領域レベルの空間レイアウトを導いたフォトリアリスティックな映像を作成する。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a novel approach for the synthesis of sign language videos using
GANs. We extend the previous work of Stoll et al. by using the human semantic
parser of the Soft-Gated Warping-GAN from to produce photorealistic videos
guided by region-level spatial layouts. Synthesizing target poses improves
performance on independent and contrasting signers. Therefore, we have
evaluated our system with the highly heterogeneous MS-ASL dataset with over 200
signers resulting in a SSIM of 0.893. Furthermore, we introduce a periodic
weighting approach to the generator that reactivates the training and leads to
quantitatively better results.
- Abstract(参考訳): GANを用いた手話ビデオ合成のための新しい手法を提案する。
stoll と al の以前の作業を拡張します。
ソフトゲートウォーピングGANのヒューマンセマンティックパーサを使用して、地域レベルの空間レイアウトでガイドされたフォトリアリスティックビデオを生成する。
合成ターゲットポーズは、独立および対照的なシグナーのパフォーマンスを改善する。
そこで我々は,200以上のシグナを持つ高度に異種なMS-ASLデータセットを用いてシステム評価を行い,SSIMは0.893となった。
さらに, 周期的な重み付け手法を導入し, トレーニングを活性化し, 定量的に良好な結果をもたらす。
関連論文リスト
- LS-GAN: Human Motion Synthesis with Latent-space GANs [0.0]
条件付きモーション合成はテキストを入力し、テキストに対応する3Dモーションを出力する。
本稿では,GAN(Generative Adversarial Networks)を潜在空間で活用して,より高速なトレーニングと推論を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T05:44:38Z) - Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文 参考訳(メタデータ) (2024-12-16T08:37:58Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - A Complete Recipe for Diffusion Generative Models [18.891215475887314]
生成モデル(SGM)における前進過程の定式化のための完全なレシピを提案する。
補助変数に富んだ拡張空間内のスコアベースモデリングに依存する位相空間ランゲヴィン拡散(PSLD)を導入する。
論文 参考訳(メタデータ) (2023-03-03T07:20:58Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Syntactically Guided Generative Embeddings for Zero-Shot Skeleton Action
Recognition [9.30315673109153]
ゼロショット学習(ZSL)のための構文誘導型生成手法SynSEについて紹介する。
我々のエンドツーエンドアプローチは、関係するモダリティ(視覚、言語)の内外で制約された、段階的に洗練された生成的埋め込み空間を学習する。
以上の結果から,ZSLおよび一般化ゼロショット学習(GZSL)設定におけるSynSEの有効性が示された。
論文 参考訳(メタデータ) (2021-01-27T16:34:27Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。