Fugu-MT 論文翻訳(概要): Pose-Guided Sign Language Video GAN with Dynamic Lambda

論文の概要: Pose-Guided Sign Language Video GAN with Dynamic Lambda

arxiv url: http://arxiv.org/abs/2105.02742v1
Date: Thu, 6 May 2021 15:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 16:00:27.505273
Title: Pose-Guided Sign Language Video GAN with Dynamic Lambda
Title（参考訳）: 動的ラムダを用いたPose-Guided Sign Language Video GAN
Authors: Christopher Kissel, Christopher K\"ummel, Dennis Ritter, Kristian Hildebrand
Abstract要約: 我々は,gansを用いた手話ビデオの新しい手法を提案する。我々は,ソフトゲートワープガンの人間意味合成を用いて,領域レベルの空間レイアウトを導いたフォトリアリスティックな映像を作成する。
参考スコア（独自算出の注目度）: 0.41998444721319206
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We propose a novel approach for the synthesis of sign language videos using GANs. We extend the previous work of Stoll et al. by using the human semantic parser of the Soft-Gated Warping-GAN from to produce photorealistic videos guided by region-level spatial layouts. Synthesizing target poses improves performance on independent and contrasting signers. Therefore, we have evaluated our system with the highly heterogeneous MS-ASL dataset with over 200 signers resulting in a SSIM of 0.893. Furthermore, we introduce a periodic weighting approach to the generator that reactivates the training and leads to quantitatively better results.
Abstract（参考訳）: GANを用いた手話ビデオ合成のための新しい手法を提案する。 stoll と al の以前の作業を拡張します。ソフトゲートウォーピングGANのヒューマンセマンティックパーサを使用して、地域レベルの空間レイアウトでガイドされたフォトリアリスティックビデオを生成する。合成ターゲットポーズは、独立および対照的なシグナーのパフォーマンスを改善する。そこで我々は,200以上のシグナを持つ高度に異種なMS-ASLデータセットを用いてシステム評価を行い,SSIMは0.893となった。さらに, 周期的な重み付け手法を導入し, トレーニングを活性化し, 定量的に良好な結果をもたらす。

関連論文リスト

XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection [1.8334165690218873]
我々は、XLSR-Conformerモデルにおける従来のMulti-Layer Perceptron(MLP)をKolmogorov-Arnold Network(KAN)に置き換える新しいアプローチを提案する。 XLSR-Conformer モデルへの Kan の統合は, LA と DF の等誤差レート (EER) において, 相対的に 60.55% 向上できることを示した。
論文参考訳（メタデータ） (2025-10-08T06:58:58Z)
Pushing the Performance of Synthetic Speech Detection with Kolmogorov-Arnold Networks and Self-Supervised Learning Models [1.7205106391379026]
我々は、XLSR-Conformerモデルにおける従来のマルチ層パーセプトロンをコルモゴロフ・アルノルドネットワーク(KAN)で置き換える新しいアプローチを提案する。以上の結果から,KAをSSLベースモデルに統合することで,LAとDFの相対的な性能を60.55%向上させることができることがわかった。
論文参考訳（メタデータ） (2025-06-17T03:30:58Z)
Learning Beyond Limits: Multitask Learning and Synthetic Data for Low-Resource Canonical Morpheme Segmentation [7.766518675734386]
低リソースのトレーニング信号を増強する変圧器を用いた形態素セグメンテーションシステムを提案する。本フレームワークは, 形態的セグメントとグルースを図形入力から共同で予測する。我々は,大規模言語モデル(LLM)によって生成された合成学習データを,文脈内学習を用いて統合する。
論文参考訳（メタデータ） (2025-05-22T15:40:09Z)
Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis [55.65459867300319]
LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。本稿では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する新しい手法であるReference-Level Feedbackを提案する。
論文参考訳（メタデータ） (2025-02-06T21:29:00Z)
LS-GAN: Human Motion Synthesis with Latent-space GANs [0.0]
条件付きモーション合成はテキストを入力し、テキストに対応する3Dモーションを出力する。本稿では,GAN(Generative Adversarial Networks)を潜在空間で活用して,より高速なトレーニングと推論を実現する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-30T05:44:38Z)
Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。 WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文参考訳（メタデータ） (2024-12-16T08:37:58Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。 SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文参考訳（メタデータ） (2023-05-23T06:41:16Z)
Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文参考訳（メタデータ） (2023-03-17T12:55:22Z)
A Complete Recipe for Diffusion Generative Models [18.891215475887314]
生成モデル(SGM)における前進過程の定式化のための完全なレシピを提案する。補助変数に富んだ拡張空間内のスコアベースモデリングに依存する位相空間ランゲヴィン拡散(PSLD)を導入する。
論文参考訳（メタデータ） (2023-03-03T07:20:58Z)
Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。 C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文参考訳（メタデータ） (2021-09-02T09:10:39Z)
Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。本稿では,Latent Score-based Generative Model (LSGM)を提案する。データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文参考訳（メタデータ） (2021-06-10T17:26:35Z)
Syntactically Guided Generative Embeddings for Zero-Shot Skeleton Action Recognition [9.30315673109153]
ゼロショット学習(ZSL)のための構文誘導型生成手法SynSEについて紹介する。我々のエンドツーエンドアプローチは、関係するモダリティ(視覚、言語)の内外で制約された、段階的に洗練された生成的埋め込み空間を学習する。以上の結果から,ZSLおよび一般化ゼロショット学習(GZSL)設定におけるSynSEの有効性が示された。
論文参考訳（メタデータ） (2021-01-27T16:34:27Z)
Improving Augmentation and Evaluation Schemes for Semantic Image Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文参考訳（メタデータ） (2020-11-25T10:55:26Z)
Few-Shot Adaptation of Generative Adversarial Networks [54.014885321880755]
本稿では,100枚未満の設定でGANを適応するための簡易かつ効果的なFew-Shot GANを提案する。 FSGANは、対応する特異ベクトルを凍結しながら、事前訓練された重みの特異値に適応することを学ぶ。提案手法は,既存のGAN適応法と比較して,視覚的品質が著しく向上していることを示す。
論文参考訳（メタデータ） (2020-10-22T17:59:29Z)
Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。 Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文参考訳（メタデータ） (2020-09-18T14:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。