論文の概要: CTrGAN: Cycle Transformers GAN for Gait Transfer
- arxiv url: http://arxiv.org/abs/2206.15248v1
- Date: Thu, 30 Jun 2022 12:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 23:03:03.206393
- Title: CTrGAN: Cycle Transformers GAN for Gait Transfer
- Title(参考訳): CTrGAN: 歩行転送のためのサイクルトランスフォーマーGAN
- Authors: Shahar Mahpod, Noam Gaash, G. Ben-Artzi
- Abstract要約: 本稿では,目標の自然歩行をうまく生成できる新しいモデルであるCycle Transformers GAN(CTrGAN)を紹介する。
CTrGANのジェネレータはデコーダとエンコーダで構成されており、どちらもトランスフォーマーである。
提案手法は,既存の手法よりも,桁違いにリアルなパーソナライズされた歩行を実現できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We attempt for the first time to address the problem of gait transfer. In
contrast to motion transfer, the objective here is not to imitate the source's
normal motions, but rather to transform the source's motion into a typical gait
pattern for the target. Using gait recognition models, we demonstrate that
existing techniques yield a discrepancy that can be easily detected. We
introduce a novel model, Cycle Transformers GAN (CTrGAN), that can successfully
generate the target's natural gait. CTrGAN's generators consist of a decoder
and encoder, both Transformers, where the attention is on the temporal domain
between complete images rather than the spatial domain between patches. While
recent Transformer studies in computer vision mainly focused on discriminative
tasks, we introduce an architecture that can be applied to synthesis tasks.
Using a widely-used gait recognition dataset, we demonstrate that our approach
is capable of producing over an order of magnitude more realistic personalized
gaits than existing methods, even when used with sources that were not
available during training.
- Abstract(参考訳): 我々は初めて歩行伝達の問題に対処しようと試みる。
運動伝達とは対照的に、ここでの目的はソースの通常の動きを模倣するのではなく、ソースの動きをターゲットの典型的な歩行パターンに変換することである。
歩行認識モデルを用いて,既存の手法が容易に検出できる不一致を生じさせることを示す。
本稿では,目標の自然歩行をうまく生成できる新しいモデルであるCycle Transformers GAN(CTrGAN)を紹介する。
CTrGANのジェネレータはデコーダとエンコーダで構成されており、両トランスフォーマーはパッチ間の空間領域ではなく、完全な画像間の時間領域に注意を向けている。
近年のコンピュータビジョンにおけるトランスフォーマーの研究は、主に識別タスクに焦点を当てているが、我々は合成タスクに適用可能なアーキテクチャを導入する。
広く使用されている歩容認識データセットを用いて,トレーニング中に使用できなかったソースでも,既存の手法よりも1桁以上のリアルなパーソナライズされた歩容を生成できることを実証した。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-21T07:56:59Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。