論文の概要: Perspective Transformation Layer
- arxiv url: http://arxiv.org/abs/2201.05706v1
- Date: Fri, 14 Jan 2022 23:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:59:07.533535
- Title: Perspective Transformation Layer
- Title(参考訳): 遠近変換層
- Authors: Nishan Khatri, Agnibh Dasgupta, Yucong Shen, Xin Zhong, Frank Shih
- Abstract要約: 層(PT層)は、アフィン変換における幾何学をモデル化するだけでなく、視点変化を反映する視点変換を学ぶために提案される。
実験と評価により,提案したPT層の優位性が確認された。
- 参考スコア(独自算出の注目度): 1.391198481393699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating geometric transformations that reflect the relative position
changes between an observer and an object into computer vision and deep
learning models has attracted much attention in recent years. However, the
existing proposals mainly focus on affine transformations that cannot fully
show viewpoint changes. Furthermore, current solutions often apply a neural
network module to learn a single transformation matrix, which ignores the
possibility for various viewpoints and creates extra to-be-trained module
parameters. In this paper, a layer (PT layer) is proposed to learn the
perspective transformations that not only model the geometries in affine
transformation but also reflect the viewpoint changes. In addition, being able
to be directly trained with gradient descent like traditional layers such as
convolutional layers, a single proposed PT layer can learn an adjustable number
of multiple viewpoints without training extra module parameters. The
experiments and evaluations confirm the superiority of the proposed PT layer.
- Abstract(参考訳): 近年,観測者と物体間の相対的な位置変化をコンピュータビジョンやディープラーニングモデルに反映した幾何学的変換が注目されている。
しかし、既存の提案は主に視点の変化を完全に示さないアフィン変換に焦点を当てている。
さらに、現在のソリューションでは、ニューラルネットワークモジュールを単一のトランスフォーメーションマトリックスの学習に適用することが多く、さまざまな視点の可能性を無視して、追加のto-be-trainedモジュールパラメータを生成する。
本稿では,アフィン変換におけるジオメトリをモデル化するだけでなく,視点変化を反映した視点変換を学習するために,層(PT層)を提案する。
さらに、畳み込み層のような従来の層のような勾配降下で直接トレーニングできるので、単一のpt層はモジュールパラメータをトレーニングすることなく、調整可能な複数の視点を学習することができる。
実験および評価により, 提案するpt層の優性が確認された。
関連論文リスト
- Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - GeoDeformer: Geometric Deformable Transformer for Action Recognition [22.536307401874105]
視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
論文 参考訳(メタデータ) (2023-11-29T16:55:55Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Revisiting Transformation Invariant Geometric Deep Learning: Are Initial
Representations All You Need? [80.86819657126041]
変換不変および距離保存初期表現は変換不変性を達成するのに十分であることを示す。
具体的には、多次元スケーリングを変更することで、変換不変かつ距離保存された初期点表現を実現する。
我々は、TinvNNが変換不変性を厳密に保証し、既存のニューラルネットワークと組み合わせられるほど汎用的で柔軟なことを証明した。
論文 参考訳(メタデータ) (2021-12-23T03:52:33Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。