論文の概要: Feature-Based Lie Group Transformer for Real-World Applications
- arxiv url: http://arxiv.org/abs/2506.04668v3
- Date: Mon, 09 Jun 2025 12:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.145
- Title: Feature-Based Lie Group Transformer for Real-World Applications
- Title(参考訳): 実世界の応用のための特徴ベースリー群変圧器
- Authors: Takayuki Komatsu, Yoshiyuki Ohmura, Kayato Nishitsunoi, Yasuo Kuniyoshi,
- Abstract要約: 表現学習の主な目的は、実世界の感覚入力から意味のある表現を、監督なしで取得することである。
ガロア代数理論における群分解を用いた新しい手法を提案する。
この方法は、より一般的な表現を定義することを約束するが、特徴抽出なしでピクセル間変換を仮定する。
特徴抽出とオブジェクトセグメンテーションを組み合わせることで,より現実的なシナリオにグループ分解理論を適用する方法を提案する。
- 参考スコア(独自算出の注目度): 3.1936317340169817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main goal of representation learning is to acquire meaningful representations from real-world sensory inputs without supervision. Representation learning explains some aspects of human development. Various neural network (NN) models have been proposed that acquire empirically good representations. However, the formulation of a good representation has not been established. We recently proposed a method for categorizing changes between a pair of sensory inputs. A unique feature of this approach is that transformations between two sensory inputs are learned to satisfy algebraic structural constraints. Conventional representation learning often assumes that disentangled independent feature axes is a good representation; however, we found that such a representation cannot account for conditional independence. To overcome this problem, we proposed a new method using group decomposition in Galois algebra theory. Although this method is promising for defining a more general representation, it assumes pixel-to-pixel translation without feature extraction, and can only process low-resolution images with no background, which prevents real-world application. In this study, we provide a simple method to apply our group decomposition theory to a more realistic scenario by combining feature extraction and object segmentation. We replace pixel translation with feature translation and formulate object segmentation as grouping features under the same transformation. We validated the proposed method on a practical dataset containing both real-world object and background. We believe that our model will lead to a better understanding of human development of object recognition in the real world.
- Abstract(参考訳): 表現学習の主な目的は、実世界の感覚入力から意味のある表現を、監督なしで取得することである。
表現学習は、人間の発達のいくつかの側面を説明する。
実験的に優れた表現を得るために、様々なニューラルネットワーク(NN)モデルが提案されている。
しかし、良い表現の定式化は確立されていない。
我々は最近,感覚入力のペア間の変化を分類する手法を提案している。
このアプローチのユニークな特徴は、2つの感覚入力間の変換が代数的構造的制約を満たすために学習されることである。
従来の表現学習では、非絡み合った特徴軸が良い表現であると仮定されることが多いが、そのような表現は条件付き独立を説明できない。
この問題を解決するために、ガロア代数理論における群分解を用いた新しい方法を提案した。
この方法は、より一般的な表現を定義することを約束するが、特徴抽出なしでピクセル間変換を前提としており、背景のない低解像度画像しか処理できないため、現実世界の応用を妨げている。
本研究では,特徴抽出とオブジェクトセグメンテーションを組み合わせることで,より現実的なシナリオにグループ分解理論を適用するための簡単な方法を提案する。
我々は、画素変換を特徴変換に置き換え、同じ変換の下でグループ化機能としてオブジェクト分割を定式化する。
提案手法を実世界のオブジェクトと背景の両方を含む実用的なデータセット上で検証した。
われわれのモデルは、現実世界における物体認識の人間の発達をよりよく理解することにつながると信じている。
関連論文リスト
- Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Subspace Nonnegative Matrix Factorization for Feature Representation [14.251799988700558]
非負行列分解(NMF)は、すべての特徴を等しく扱うことを意味するデータ空間全体の特徴表現を学習する。
本稿では, 適応重みを導入して, 部分空間だけが新しい表現を生成するように, 元の空間における重要な特徴を識別する新しいNMF法を提案する。
いくつかの実世界のデータセットに対する実験結果から,提案手法が既存手法よりも正確な特徴表現を生成可能であることが示された。
論文 参考訳(メタデータ) (2022-04-18T16:07:06Z) - Leveraging Equivariant Features for Absolute Pose Regression [9.30597356471664]
変換と回転の同変である畳み込みニューラルネットワークは,カメラの動きの表現を直接特徴空間に誘導することを示す。
次に、この幾何学的性質により、画像平面保存変換の全グループの下でトレーニングデータを暗黙的に増大させることができることを示す。
論文 参考訳(メタデータ) (2022-04-05T12:44:20Z) - Fair Interpretable Learning via Correction Vectors [68.29997072804537]
我々は「補正ベクトル」の学習を中心とした公正表現学習のための新しい枠組みを提案する。
修正は単純に元の特徴にまとめられるので、各特徴に対して明確なペナルティやボーナスとして分析することができる。
このような方法で制約された公平な表現学習問題が性能に影響を与えないことを実験的に示す。
論文 参考訳(メタデータ) (2022-01-17T10:59:33Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - GENESIS-V2: Inferring Unordered Object Representations without Iterative
Refinement [26.151968529063762]
我々は、RNNや反復的精細化を使わずに、可変数のオブジェクト表現を推論できる新しいモデル GENESIS-V2 を開発した。
GENESIS-V2は、既存の合成データセット上で、監視されていない画像分割とオブジェクト中心のシーン生成の従来の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-20T14:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。