論文の概要: Pose-Guided Sign Language Video GAN with Dynamic Lambda
- arxiv url: http://arxiv.org/abs/2105.02742v1
- Date: Thu, 6 May 2021 15:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 16:00:27.505273
- Title: Pose-Guided Sign Language Video GAN with Dynamic Lambda
- Title(参考訳): 動的ラムダを用いたPose-Guided Sign Language Video GAN
- Authors: Christopher Kissel, Christopher K\"ummel, Dennis Ritter, Kristian
Hildebrand
- Abstract要約: 我々は,gansを用いた手話ビデオの新しい手法を提案する。
我々は,ソフトゲートワープガンの人間意味合成を用いて,領域レベルの空間レイアウトを導いたフォトリアリスティックな映像を作成する。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a novel approach for the synthesis of sign language videos using
GANs. We extend the previous work of Stoll et al. by using the human semantic
parser of the Soft-Gated Warping-GAN from to produce photorealistic videos
guided by region-level spatial layouts. Synthesizing target poses improves
performance on independent and contrasting signers. Therefore, we have
evaluated our system with the highly heterogeneous MS-ASL dataset with over 200
signers resulting in a SSIM of 0.893. Furthermore, we introduce a periodic
weighting approach to the generator that reactivates the training and leads to
quantitatively better results.
- Abstract(参考訳): GANを用いた手話ビデオ合成のための新しい手法を提案する。
stoll と al の以前の作業を拡張します。
ソフトゲートウォーピングGANのヒューマンセマンティックパーサを使用して、地域レベルの空間レイアウトでガイドされたフォトリアリスティックビデオを生成する。
合成ターゲットポーズは、独立および対照的なシグナーのパフォーマンスを改善する。
そこで我々は,200以上のシグナを持つ高度に異種なMS-ASLデータセットを用いてシステム評価を行い,SSIMは0.893となった。
さらに, 周期的な重み付け手法を導入し, トレーニングを活性化し, 定量的に良好な結果をもたらす。
関連論文リスト
- Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - A Complete Recipe for Diffusion Generative Models [18.891215475887314]
生成モデル(SGM)における前進過程の定式化のための完全なレシピを提案する。
補助変数に富んだ拡張空間内のスコアベースモデリングに依存する位相空間ランゲヴィン拡散(PSLD)を導入する。
論文 参考訳(メタデータ) (2023-03-03T07:20:58Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Syntactically Guided Generative Embeddings for Zero-Shot Skeleton Action
Recognition [9.30315673109153]
ゼロショット学習(ZSL)のための構文誘導型生成手法SynSEについて紹介する。
我々のエンドツーエンドアプローチは、関係するモダリティ(視覚、言語)の内外で制約された、段階的に洗練された生成的埋め込み空間を学習する。
以上の結果から,ZSLおよび一般化ゼロショット学習(GZSL)設定におけるSynSEの有効性が示された。
論文 参考訳(メタデータ) (2021-01-27T16:34:27Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z) - Few-Shot Adaptation of Generative Adversarial Networks [54.014885321880755]
本稿では,100枚未満の設定でGANを適応するための簡易かつ効果的なFew-Shot GANを提案する。
FSGANは、対応する特異ベクトルを凍結しながら、事前訓練された重みの特異値に適応することを学ぶ。
提案手法は,既存のGAN適応法と比較して,視覚的品質が著しく向上していることを示す。
論文 参考訳(メタデータ) (2020-10-22T17:59:29Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。