論文の概要: Unsupervised Learning of Inter-Object Relationships via Group Homomorphism
- arxiv url: http://arxiv.org/abs/2604.20925v1
- Date: Wed, 22 Apr 2026 07:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.097713
- Title: Unsupervised Learning of Inter-Object Relationships via Group Homomorphism
- Title(参考訳): 群準同型による物体間関係の教師なし学習
- Authors: Kyotaro Ushida, Takayuki Komatsu, Yoshiyuki Ohmura, Yasuo Kuniyoshi,
- Abstract要約: 本研究では,グループ操作における階層的関係に基づく教師なし表現学習手法を提案する。
実験により,モデルが複数のオブジェクトを個別のスロットに分割できることを示す。
結果は、代数的幾何学的制約を導入することにより、物理的に解釈可能な「異方表現」が得られることを示唆している。
- 参考スコア(独自算出の注目度): 3.8731899020772165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While current deep learning models achieve high performance by learning statistical correlations from vast datasets,which stands in stark contrast to human learning. They lack the flexibility of humans-particularly preverbal infants-to autonomously acquire the underlying structure of the world from limited experience and adapt to novel situations. In this study, we propose an unsupervised representation learning method based on a hierarchical relationship in group operations, rather than statistical independence, aiming to build a computational model of the cognitive development of infants. The proposed model features an integrated architecture that simultaneously performs object segmentation and the extraction of motion laws from dynamic image sequences. By introducing the Homomorphism from algebra as a structural constraint within a neural network, the model structurally separates pixel-level changes into meaningful, decomposed transformation components, such as translation and deformation. Using interaction scenes (chasing and evading tasks) based on developmental science findings, we experimentally demonstrate that the model can segment multiple objects into individual slots without any ground-truth labels. Furthermore, we confirmed that relative movements between objects, such as approaching or receding, are accurately mapped and structured into a one-dimensional additive latent space. These results suggest that by introducing algebraic geometric constraints rather than relying solely on statistical correlation learning, physically interpretable "disentangled representations" can be acquired. This study contributes to the understanding of the process by which infants internalize environmental laws as structures and provides a new perspective for constructing artificial systems with developmental intelligence.
- Abstract(参考訳): 現在のディープラーニングモデルは、人間の学習とは対照的に、膨大なデータセットから統計的相関を学習することで、高いパフォーマンスを達成する。
人間、特に前言語児の柔軟性に欠けており、限られた経験から世界の基盤構造を自律的に獲得し、新しい状況に適応する。
本研究では,統計的独立性ではなく,グループ操作における階層的関係に基づく教師なし表現学習手法を提案し,幼児の認知発達の計算モデルを構築することを目的とした。
提案モデルでは,オブジェクト分割と動的画像列からの動作則の抽出を同時に行う統合アーキテクチャを特徴とする。
ニューラルネットワーク内の構造的制約として代数からホモモルフィズムを導入することにより、モデルは、ピクセルレベルの変化を、翻訳や変形のような有意義で分解された変換成分に構造的に分離する。
発達科学的な知見に基づくインタラクションシーン(チャットと回避タスク)を用いて,モデルが複数のオブジェクトを個別のスロットに分割できることを実験により実証した。
さらに、接近や後退などの物体間の相対的な動きが正確にマッピングされ、1次元の付加潜在空間に構造化されることを確認した。
これらの結果は,統計的相関学習にのみ依存するのではなく,代数的幾何学的制約を導入することにより,物理的に解釈可能な「不整合表現」が得られることを示唆している。
本研究は, 幼児が環境法を構造として内在化する過程の理解に寄与し, 発達的知能を持つ人工システム構築の新たな視点を提供する。
関連論文リスト
- Alignment among Language, Vision and Action Representations [0.0]
言語,視覚,行動表現が部分的に共有された意味構造に収束することを示す。
これらの結果は、言語、視覚、行動表現が部分的に共有された意味構造に収束していることを示している。
論文 参考訳(メタデータ) (2026-01-30T13:12:07Z) - A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning [50.68188138112555]
大規模言語モデルが自然に相乗的コアを開発することを示す。
中層の領域は相乗的処理を示し, 初期層と後期層は冗長性に依存していることがわかった。
この収束は、シナジスティック情報処理が知性の基本的な性質であることを示している。
論文 参考訳(メタデータ) (2026-01-11T10:48:35Z) - A Markov Categorical Framework for Language Modeling [9.910562011343009]
自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-07-25T13:14:03Z) - Connecting Neural Models Latent Geometries with Relative Geodesic Representations [21.71782603770616]
遅延構造を異なる潜在空間間で共有する場合、表現間の相対距離を歪みまで保存できることが示される。
異なるニューラルモデルは、ほぼ同じ基礎多様体をパラメータ化し、プルバック計量に基づく表現を導入すると仮定する。
本手法は,オートエンコーダと視覚基盤識別モデルを対象として,モデルの縫合と検索のタスクについて検証する。
論文 参考訳(メタデータ) (2025-06-02T12:34:55Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language [15.929767234646631]
データ、サイズ、計算量の増加は、ニューラルネットワークによる特定の能力の急激な学習につながる可能性がある。
エマージェンス(emergence)とは、しばしば「エマージェンス(emergence)」と呼ばれる現象である。
論文 参考訳(メタデータ) (2024-08-22T17:44:22Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [59.062085785106234]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。