論文の概要: Light Cones For Vision: Simple Causal Priors For Visual Hierarchy
- arxiv url: http://arxiv.org/abs/2603.24753v1
- Date: Wed, 25 Mar 2026 19:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.960282
- Title: Light Cones For Vision: Simple Causal Priors For Visual Hierarchy
- Title(参考訳): Light Cones for Vision:ビジュアル階層に先立つシンプルな因果関係
- Authors: Manglam Kartik, Neel Tushar Shah,
- Abstract要約: 標準視覚モデルは、対象をユークリッド空間の独立点として扱い、全体の内部部分のような階層構造を捉えることができない。
我々は、オブジェクトを時空の世界線を通して永続的な軌跡としてモデル化するWorldline Slot Attentionを紹介した。
このアーキテクチャは幾何学的構造なしで一貫して失敗する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard vision models treat objects as independent points in Euclidean space, unable to capture hierarchical structure like parts within wholes. We introduce Worldline Slot Attention, which models objects as persistent trajectories through spacetime worldlines, where each object has multiple slots at different hierarchy levels sharing the same spatial position but differing in temporal coordinates. This architecture consistently fails without geometric structure: Euclidean worldlines achieve 0.078 level accuracy, below random chance (0.33), while Lorentzian worldlines achieve 0.479-0.661 across three datasets: a 6x improvement replicated over 20+ independent runs. Lorentzian geometry also outperforms hyperbolic embeddings showing visual hierarchies require causal structure (temporal dependency) rather than tree structure (radial branching). Our results demonstrate that hierarchical object discovery requires geometric structure encoding asymmetric causality, an inductive bias absent from Euclidean space but natural to Lorentzian light cones, achieved with only 11K parameters. The code is available at: https://github.com/iclrsubmissiongram/loco.
- Abstract(参考訳): 標準視覚モデルは、対象をユークリッド空間の独立点として扱い、全体の内部部分のような階層構造を捉えることができない。
本稿では,各オブジェクトが同じ空間的位置を共有しながら時間的座標で異なる複数のスロットを持つ時空世界線を通して,オブジェクトを永続的軌道としてモデル化するWorldline Slot Attentionを紹介した。
ユークリッド世界線は0.078レベルの精度を達成し、ランダムチャンス(0.33)を下回る一方、ローレンツ世界線は0.479-0.661を3つのデータセットで達成している。
ローレンツ幾何学もまた、視覚的階層性を示す双曲的埋め込みよりも優れており、木構造(ラジアル分岐)よりも因果構造(時間的依存)を必要とする。
この結果から,非対称因果性(ユークリッド空間から欠落する帰納的偏差)を符号化する幾何学的構造を必要とすることが示唆された。
コードは、https://github.com/iclrsubmissiongram/loco.comで入手できる。
関連論文リスト
- A Hyperbolic Perspective on Hierarchical Structure in Object-Centric Scene Representations [58.143688187023734]
双曲空間のローレンツ双曲体にユークリッドスロット埋め込みを投影する簡単なパイプラインを提案する。
スロットアテンションマスクから直接5段階の視覚階層を構築する。
双曲的プロジェクションは、一貫したシーンレベルをオブジェクトレベル組織に公開する。
論文 参考訳(メタデータ) (2026-03-14T16:53:59Z) - Robust Scene Coordinate Regression via Geometrically-Consistent Global Descriptors [52.57327385675752]
幾何学的構造と視覚的類似性の両方に整合したグローバルな記述子を学習するアグリゲータモジュールを提案する。
これにより、信頼できないオーバーラップスコアによる誤関連が修正される。
挑戦的なベンチマークの実験では、大規模環境ではかなりのローカライゼーションが得られた。
論文 参考訳(メタデータ) (2025-12-19T04:24:03Z) - Geometry-aware Distance Measure for Diverse Hierarchical Structures in Hyperbolic Spaces [48.948334221681684]
双曲空間における幾何対応距離測度を提案し、様々な階層構造に動的に適応する。
我々の手法は、固定距離測定を用いた学習方法よりも一貫して優れている。
可視化は、双曲空間におけるクラス境界の明確化とプロトタイプ分離の改善を示している。
論文 参考訳(メタデータ) (2025-06-23T11:43:39Z) - The Geometry of Meaning: Perfect Spacetime Representations of Hierarchical Structures [0.0]
3次元ミンコフスキー時空に階層構造を埋め込む高速アルゴリズムが存在することを示す。
我々の結果は、すべての離散データが3次元の完全な幾何学的表現を持っていることを示唆しているように思われる。
論文 参考訳(メタデータ) (2025-05-07T20:41:06Z) - The Geometry of Concepts: Sparse Autoencoder Feature Structure [10.95343312207608]
宇宙は3つのレベルで興味深い構造を持つ。
ブレイン」中間スケール構造は、空間的モジュラリティが著しく高い。
特徴点雲の「ガラクシー」スケールの大規模構造は等方性ではなく、中層で最も急勾配の固有値のパワー則を持つ。
論文 参考訳(メタデータ) (2024-10-10T17:58:47Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Geometry Interaction Knowledge Graph Embeddings [153.69745042757066]
ユークリッド空間,双曲空間,超球空間間の空間構造を対話的に学習する幾何学的相互作用知識グラフ埋め込み(GIE)を提案する。
提案したGIEは、よりリッチなリレーショナル情報、モデルキー推論パターンをキャプチャし、エンティティ間の表現的セマンティックマッチングを可能にする。
論文 参考訳(メタデータ) (2022-06-24T08:33:43Z) - Highly Scalable and Provably Accurate Classification in Poincare Balls [40.82908295137667]
我々は、スケーラブルで単純な双曲型線形分類器を証明可能な性能保証で学習するための統一的なフレームワークを構築した。
提案手法は,新しい双曲型および二階型パーセプトロンアルゴリズムと,双曲型サポートベクトルマシン分類器の効率的かつ高精度な凸最適化設定を含む。
数百万の点からなる合成データセットと、シングルセルRNA-seq式測定、CIFAR10、Fashion-MNIST、mini-ImageNetのような複雑な実世界のデータセットの性能評価を行う。
論文 参考訳(メタデータ) (2021-09-08T16:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。