Fugu-MT 論文翻訳(概要): A Hyperbolic Perspective on Hierarchical Structure in Object-Centric Scene Representations

論文の概要: A Hyperbolic Perspective on Hierarchical Structure in Object-Centric Scene Representations

arxiv url: http://arxiv.org/abs/2603.14022v1
Date: Sat, 14 Mar 2026 16:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.553002
Title: A Hyperbolic Perspective on Hierarchical Structure in Object-Centric Scene Representations
Title（参考訳）: オブジェクト中心のシーン表現における階層構造に関する双曲的視点
Authors: Neelu Madan, Àlex Pujol, Andreas Møgelmose, Sergio Escalera, Kamal Nasrollahi, Graham W. Taylor, Thomas B. Moeslund,
Abstract要約: 双曲空間のローレンツ双曲体にユークリッドスロット埋め込みを投影する簡単なパイプラインを提案する。スロットアテンションマスクから直接5段階の視覚階層を構築する。双曲的プロジェクションは、一貫したシーンレベルをオブジェクトレベル組織に公開する。
参考スコア（独自算出の注目度）: 58.143688187023734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Slot attention has emerged as a powerful framework for unsupervised object-centric learning, decomposing visual scenes into a small set of compact vector representations called \emph{slots}, each capturing a distinct region or object. However, these slots are learned in Euclidean space, which provides no geometric inductive bias for the hierarchical relationships that naturally structure visual scenes. In this work, we propose a simple post-hoc pipeline to project Euclidean slot embeddings onto the Lorentz hyperboloid of hyperbolic space, without modifying the underlying training pipeline. We construct five-level visual hierarchies directly from slot attention masks and analyse whether hyperbolic geometry reveals latent hierarchical structure that remains invisible in Euclidean space. Integrating our pipeline with SPOT (images), VideoSAUR (video), and SlotContrast (video), We find that hyperbolic projection exposes a consistent scene-level to object-level organisation, where coarse slots occupy greater manifold depth than fine slots, which is absent in Euclidean space. We further identify a "curvature--task tradeoff": low curvature ($c{=}0.2$) matches or outperforms Euclidean on parent slot retrieval, while moderate curvature ($c{=}0.5$) achieves better inter-level separation. Together, these findings suggest that slot representations already encode latent hierarchy that hyperbolic geometry reveals, motivating end-to-end hyperbolic training as a natural next step. Code and models are available at \href{https://github.com/NeeluMadan/HHS}{github.com/NeeluMadan/HHS}.
Abstract（参考訳）: スロットアテンションは、教師なしのオブジェクト中心学習のための強力なフレームワークとして現れ、視覚シーンを小さなコンパクトなベクトル表現集合に分解し、それぞれが異なる領域やオブジェクトをキャプチャする。しかし、これらのスロットはユークリッド空間で学習され、視覚シーンを自然に構成する階層的関係に対して幾何学的帰納バイアスを与えない。本研究では,双曲空間のローレンツ双曲体にユークリッドスロットの埋め込みを計画するための簡単なポストホックパイプラインを提案する。スロットアテンションマスクから直接5段階の視覚階層を構築し、双曲幾何学がユークリッド空間で見えない潜在階層構造を明らかにするかどうかを分析する。ハイパーボリック・プロジェクションは、粗いスロットが細かなスロットよりも大きな多様体の深さを占有し、ユークリッド空間には存在しないような、一貫したシーンレベルをオブジェクトレベル組織に公開する。さらに、低曲率(c{=}0.2$)のマッチングや、親スロットの検索においてユークリッドを上回り、中等曲率(c{=}0.5$)はレベル間分離を改善する。これらの結果は、スロット表現が既に双曲幾何学が示す潜在階層を符号化しており、次の自然なステップとしてエンドツーエンドの双曲訓練を動機付けていることを示唆している。コードとモデルは \href{https://github.com/NeeluMadan/HHS}{github.com/NeeluMadan/HHS} で公開されている。

関連論文リスト

$\text{H}^2$em: Learning Hierarchical Hyperbolic Embeddings for Compositional Zero-Shot Learning [18.502719006213635]
合成ゼロショット学習(CZSL)は、原始体の訓練セット(状態と対象)から一般化することで、目に見えない状態オブジェクトの合成を認識することを目的としている。現在の手法は、プリミティブのセマンティックな階層構造や、プリミティブとコンポジションの間の概念的な階層など、リッチな階層構造を見落としていることが多い。 CZSLのための階層型ハイパーボリックEMを学習する新しいフレームワークであるH2emを提案する。
論文参考訳（メタデータ） (2025-12-23T03:46:04Z)
HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning [77.434558721499]
部分関連ビデオ検索(PRVR)は、部分コンテンツのみを記述するテキストクエリと、未トリミングされたビデオとをマッチングするという課題に対処する。本稿は,高次空間学習を利用してユークリッド空間の最適階層的モデリング能力を補う,PRVRのための最初のハイパーボリックモデリングフレームワークであるHLFormerを提案する。
論文参考訳（メタデータ） (2025-07-23T10:59:46Z)
GGBall: Graph Generative Model on Poincaré Ball [10.796246797823557]
GGBallは、幾何学的帰納バイアスと現代的な生成パラダイムを統合する、グラフ生成のための新しい双曲的フレームワークである。我々のモデルは、コミュニティ・スモールでは75%以上、エゴ・スモールでは40%以上、最先端のベースラインでは40%以上減少する。
論文参考訳（メタデータ） (2025-06-08T15:43:21Z)
Understanding and Mitigating Hyperbolic Dimensional Collapse in Graph Contrastive Learning [70.0681902472251]
双曲空間における高品質グラフ埋め込みを学習するための新しいコントラスト学習フレームワークを提案する。具体的には、階層的なデータ不変情報を効果的にキャプチャするアライメントメトリックを設計する。双曲空間において、木の性質に関連する葉と高さの均一性に対処する必要があることを示す。
論文参考訳（メタデータ） (2023-10-27T15:31:42Z)
HMSN: Hyperbolic Self-Supervised Learning by Clustering with Ideal Prototypes [7.665392786787577]
プロトタイプに基づくクラスタリング手法の自己教師付き表現学習には,双曲表現空間を用いる。我々はMasked Siamese Networksを拡張し、双曲空間のPoincar'eボールモデルで操作する。従来の手法とは異なり、エンコーダネットワークの出力における双曲空間に投影し、双曲投影ヘッドを利用して、下流タスクに使用される表現が双曲的であることを保証する。
論文参考訳（メタデータ） (2023-05-18T12:38:40Z)
Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文参考訳（メタデータ） (2022-12-17T15:05:25Z)
Hyperbolic Hierarchical Knowledge Graph Embeddings for Link Prediction in Low Dimensions [11.260501547769636]
我々は、$textbfHyp$erbolic $textbfH$ierarchical $textbfKGE$ (HypHKGE)と呼ばれる新しいKGEモデルを提案する。このモデルは、双曲空間に対する注意に基づく学習可能な曲率を導入し、リッチなセマンティック階層を保存するのに役立つ。 3つのベンチマークデータセットに対するHypHKGEモデルの有効性を示す実験を行った。
論文参考訳（メタデータ） (2022-04-28T03:41:41Z)
HRCF: Enhancing Collaborative Filtering via Hyperbolic Geometric Regularization [52.369435664689995]
HRCF (textitHyperbolic Regularization powered Collaborative Filtering) を導入し,幾何認識型双曲正規化器を設計する。具体的には、ルートアライメントとオリジン認識ペナルティによる最適化手順を強化する。提案手法は,双曲的凝集による過度な平滑化問題に対処でき,モデルの識別能力も向上する。
論文参考訳（メタデータ） (2022-04-18T06:11:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。