論文の概要: Disentangling Patterns and Transformations from One Sequence of Images
with Shape-invariant Lie Group Transformer
- arxiv url: http://arxiv.org/abs/2203.11210v1
- Date: Mon, 21 Mar 2022 11:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:40:58.132350
- Title: Disentangling Patterns and Transformations from One Sequence of Images
with Shape-invariant Lie Group Transformer
- Title(参考訳): 形状不変リー群変換器を用いた一列画像からの異方性パターンと変換
- Authors: T. Takada, W. Shimaya, Y. Ohmura, Y. Kuniyoshi
- Abstract要約: 我々は、よりシンプルで直感的な定式化に基づいて、複数の独立したパターンと変換を組み合わせた新しい表現学習のアプローチを採っている。
本稿では,シーンを1つの画像列のみからパターンとリー変換の基本成分の最小値に分解するモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An effective way to model the complex real world is to view the world as a
composition of basic components of objects and transformations. Although humans
through development understand the compositionality of the real world, it is
extremely difficult to equip robots with such a learning mechanism. In recent
years, there has been significant research on autonomously learning
representations of the world using the deep learning; however, most studies
have taken a statistical approach, which requires a large number of training
data. Contrary to such existing methods, we take a novel algebraic approach for
representation learning based on a simpler and more intuitive formulation that
the observed world is the combination of multiple independent patterns and
transformations that are invariant to the shape of patterns. Since the shape of
patterns can be viewed as the invariant features against symmetric
transformations such as translation or rotation, we can expect that the
patterns can naturally be extracted by expressing transformations with
symmetric Lie group transformers and attempting to reconstruct the scene with
them. Based on this idea, we propose a model that disentangles the scenes into
the minimum number of basic components of patterns and Lie transformations from
only one sequence of images, by introducing the learnable shape-invariant Lie
group transformers as transformation components. Experiments show that given
one sequence of images in which two objects are moving independently, the
proposed model can discover the hidden distinct objects and multiple
shape-invariant transformations that constitute the scenes.
- Abstract(参考訳): 複雑な現実の世界をモデル化する効果的な方法は、世界をオブジェクトと変換の基本的な構成要素の合成と見なすことである。
開発を通じて人間は実世界の構成性を理解するが、そのような学習機構をロボットに装備することは極めて困難である。
近年、ディープラーニングを用いて世界の自律学習表現に関する研究が盛んに行われているが、ほとんどの研究は統計的なアプローチを採っており、大量のトレーニングデータを必要とする。
このような既存の手法とは対照的に、観察の世界は複数の独立したパターンとパターンの形に不変な変換の組み合わせであるというより単純で直感的な定式化に基づいて、表現学習のための新しい代数的アプローチをとる。
パターンの形状は、変換や回転などの対称変換に対する不変な特徴と見なすことができるので、対称リー群トランスフォーマーによる変換を表現し、それらを用いてシーンを再構築することで、自然にパターンを抽出することができると期待できる。
そこで本研究では,学習可能な形状不変リー群トランスフォーマーを変換成分として導入することにより,シーンをパターンの基本成分の最小数と1つの画像列からリー変換するモデルを提案する。
実験により、2つの物体が独立に動く1つの画像列が与えられたとき、提案されたモデルは隠れた異なる物体とシーンを構成する複数の形状不変変換を発見できることを示した。
関連論文リスト
- DeFormer: Integrating Transformers with Deformable Models for 3D Shape
Abstraction from a Single Image [31.154786931081087]
本稿では,パラメータ化デフォルマブルモデルと統合された新しいバイチャネルトランスフォーマアーキテクチャを提案し,プリミティブのグローバルおよび局所的な変形を同時に推定する。
DeFormerは、最先端技術よりもより良い再構築精度を実現し、一貫したセマンティック対応で可視化し、解釈性を向上させる。
論文 参考訳(メタデータ) (2023-09-22T02:46:43Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Imaging with Equivariant Deep Learning [9.333799633608345]
我々は、同変イメージングの出現する分野を概観し、それが一般化と新たなイメージングの機会をいかに向上させるかを示す。
獲得物理と集団行動の相互作用と、反復的再構成、ブラインド圧縮センシング、自己教師型学習との関連を示す。
論文 参考訳(メタデータ) (2022-09-05T02:13:57Z) - Transformation Coding: Simple Objectives for Equivariant Representations [17.544323284367927]
簡単な目的を通した均質な深層埋め込みを求める深層表現学習への非生成的アプローチを提案する。
既存の同変ネットワークとは対照的に、我々の変換符号化アプローチはフィードフォワード層やアーキテクチャの選択を制約しない。
論文 参考訳(メタデータ) (2022-02-19T01:43:13Z) - Quantised Transforming Auto-Encoders: Achieving Equivariance to
Arbitrary Transformations in Deep Networks [23.673155102696338]
畳み込みニューラルネットワーク(CNN)は画像翻訳と等価である。
埋め込みは任意の等式関係を同時に従うオートエンコーダアーキテクチャを提案する。
いくつかのデータセット上で入力画像の変換版の再レンダリングに成功した結果を示す。
論文 参考訳(メタデータ) (2021-11-25T02:26:38Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Disentangling images with Lie group transformations and sparse coding [3.3454373538792552]
空間パターンとその連続的な変換を、完全に教師なしの方法で区別することを学ぶモデルを訓練する。
特定のMNIST桁の制御された幾何変換からなるデータセット上でモデルをトレーニングすると、これらの変換を桁とともに復元できることが分かる。
論文 参考訳(メタデータ) (2020-12-11T19:11:32Z) - Generalizing Convolutional Neural Networks for Equivariance to Lie
Groups on Arbitrary Continuous Data [52.78581260260455]
任意の特定のリー群からの変換に同値な畳み込み層を構築するための一般的な方法を提案する。
同じモデルアーキテクチャを画像、ボール・アンド・スティック分子データ、ハミルトン力学系に適用する。
論文 参考訳(メタデータ) (2020-02-25T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。