論文の概要: Diversity-Aware Sign Language Production through a Pose Encoding Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2405.10423v1
- Date: Thu, 16 May 2024 20:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 17:33:08.626681
- Title: Diversity-Aware Sign Language Production through a Pose Encoding Variational Autoencoder
- Title(参考訳): 変分オートエンコーダのポス符号化による多様性を考慮した手話生成
- Authors: Mohamed Ilyes Lakhal, Richard Bowden,
- Abstract要約: 変動推論パラダイムを拡張して、属性のポーズや条件付けに関する情報を含める。
ジェネレータフレームワークは、入力ポーズの空間保存を確保するためにUNetアーキテクチャとして提示される。
SMILE IIデータセットの実験では、提案モデルが最先端のベースラインよりも定量的に優れていることが示された。
- 参考スコア(独自算出の注目度): 33.20529988919208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of diversity-aware sign language production, where we want to give an image (or sequence) of a signer and produce another image with the same pose but different attributes (\textit{e.g.} gender, skin color). To this end, we extend the variational inference paradigm to include information about the pose and the conditioning of the attributes. This formulation improves the quality of the synthesised images. The generator framework is presented as a UNet architecture to ensure spatial preservation of the input pose, and we include the visual features from the variational inference to maintain control over appearance and style. We generate each body part with a separate decoder. This architecture allows the generator to deliver better overall results. Experiments on the SMILE II dataset show that the proposed model performs quantitatively better than state-of-the-art baselines regarding diversity, per-pixel image quality, and pose estimation. Quantitatively, it faithfully reproduces non-manual features for signers.
- Abstract(参考訳): 本稿では,シグナのイメージ(あるいはシーケンス)を付与し,同じポーズの異なる特徴を持つ別のイメージを生成したいという,多様性を意識した手話生成の問題に対処する(\textit{e g } 性別,肌色)。
この目的のために、変動推論パラダイムを拡張して、属性のポーズと条件付けに関する情報を含める。
この定式化により合成画像の品質が向上する。
ジェネレータ・フレームワークは,入力ポーズの空間的保存を確保するためにUNetアーキテクチャとして提示される。
別個のデコーダで各本体部を生成する。
このアーキテクチャにより、ジェネレータは全体的な結果をより良く提供できる。
SMILE IIデータセットを用いた実験により,提案モデルは,多様性,画素ごとの画質,ポーズ推定など,最先端のベースラインよりも定量的に優れていることが示された。
定量的にシグナーの非手動的特徴を忠実に再現する。
関連論文リスト
- ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。
統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - On the Suitability of Representations for Quality Diversity Optimization
of Shapes [77.34726150561087]
進化的アルゴリズムで使用される表現、あるいは符号化は、その性能に大きな影響を及ぼす。
本研究では, 直接符号化, 辞書ベース表現, パラメトリック符号化, 合成パターン生成ネットワーク, セルオートマトンなどの表現が, 酸化メッシュの生成に与える影響について比較した。
論文 参考訳(メタデータ) (2023-04-07T07:34:23Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Controllable Person Image Synthesis with Attribute-Decomposed GAN [27.313729413684012]
本稿では,制御可能な人物画像合成のための新しい生成モデルであるAttribute-Decomposed GANを紹介する。
提案されたモデルの中核となる考え方は、人間の属性を独立したコードとして潜在空間に埋め込むことである。
実験により,提案手法がポーズ伝達における技量よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。