論文の概要: Learning Group Actions In Disentangled Latent Image Representations
- arxiv url: http://arxiv.org/abs/2512.04015v1
- Date: Wed, 03 Dec 2025 17:52:24 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:00:04.168032
- Title: Learning Group Actions In Disentangled Latent Image Representations
- Title(参考訳): アンタングル画像表現におけるグループ行動の学習
- Authors: Farhana Hossain Swarnali, Miaomiao Zhang, Tonmoy Hossain,
- Abstract要約: 潜在表現に対するグループアクションは、高次元画像データの制御可能な変換を可能にする。
ラテント空間法はより柔軟性を提供するが、それでもラテント変数を同変部分空間と不変部分空間に手動で分割する必要がある。
本稿では,潜像多様体上での群作用を初めて学習する,新しいエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.3197661857419962
- License:
- Abstract: Modeling group actions on latent representations enables controllable transformations of high-dimensional image data. Prior works applying group-theoretic priors or modeling transformations typically operate in the high-dimensional data space, where group actions apply uniformly across the entire input, making it difficult to disentangle the subspace that varies under transformations. While latent-space methods offer greater flexibility, they still require manual partitioning of latent variables into equivariant and invariant subspaces, limiting the ability to robustly learn and operate group actions within the representation space. To address this, we introduce a novel end-to-end framework that for the first time learns group actions on latent image manifolds, automatically discovering transformation-relevant structures without manual intervention. Our method uses learnable binary masks with straight-through estimation to dynamically partition latent representations into transformation-sensitive and invariant components. We formulate this within a unified optimization framework that jointly learns latent disentanglement and group transformation mappings. The framework can be seamlessly integrated with any standard encoder-decoder architecture. We validate our approach on five 2D/3D image datasets, demonstrating its ability to automatically learn disentangled latent factors for group actions in diverse data, while downstream classification tasks confirm the effectiveness of the learned representations. Our code is publicly available at https://github.com/farhanaswarnali/Learning-Group-Actions-In-Disentangled-Latent-Image-Representatio ns .
- Abstract(参考訳): 潜在表現に対するグループアクションのモデリングは、高次元画像データの制御可能な変換を可能にする。
グループ理論の先例やモデリング変換を適用した以前の研究は、グループアクションが入力全体にわたって一様に適用されるような高次元のデータ空間で行うのが一般的であり、変換の下で変化する部分空間を解離することは困難である。
ラテント空間法はより柔軟性を提供するが、それでもラテント変数を等変部分空間と不変部分空間に手動で分割する必要があるため、表現空間内でグループアクションを頑健に学習し操作する能力は制限される。
そこで我々は,手動による介入を伴わない変換関連構造を自動的に発見し,潜像多様体上のグループ動作を初めて学習する,新しいエンドツーエンドフレームワークを提案する。
提案手法では,学習可能な二項マスクとストレートスルー推定を用いて,ラテント表現を動的に変換感度・不変成分に分割する。
我々はこれを、潜伏不整合とグループ変換マッピングを共同で学習する統一最適化フレームワーク内で定式化する。
このフレームワークは任意の標準的なエンコーダ/デコーダアーキテクチャとシームレスに統合できる。
提案手法を5つの2D/3D画像データセットで検証し,グループ行動の非絡み合い要因を自動的に学習する能力を示すとともに,下流分類タスクが学習した表現の有効性を検証した。
私たちのコードはhttps://github.com/farhanaswarnali/Learning-Group-Actions-In-Disentangled-Latent-Image-Representatio ns で公開されています。
関連論文リスト
- Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [59.062085785106234]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Transformation Coding: Simple Objectives for Equivariant Representations [17.544323284367927]
簡単な目的を通した均質な深層埋め込みを求める深層表現学習への非生成的アプローチを提案する。
既存の同変ネットワークとは対照的に、我々の変換符号化アプローチはフィードフォワード層やアーキテクチャの選択を制約しない。
論文 参考訳(メタデータ) (2022-02-19T01:43:13Z) - Unsupervised Learning of Group Invariant and Equivariant Representations [10.252723257176566]
グループ不変および同変表現学習を教師なし深層学習の分野に拡張する。
本稿では,エンコーダ・デコーダ・フレームワークに基づく一般学習戦略を提案する。このフレームワークでは,潜在表現を不変項と同変群アクション成分で分離する。
鍵となる考え方は、ネットワークがグループ不変表現にデータをエンコードしてデコードすることを学習し、さらに適切なグループ動作を予測して、入力と出力のポーズを調整して再構成タスクを解決することである。
論文 参考訳(メタデータ) (2022-02-15T16:44:21Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。