論文の概要: Global Geometry Is Not Enough for Vision Representations
- arxiv url: http://arxiv.org/abs/2602.03282v1
- Date: Tue, 03 Feb 2026 09:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.343681
- Title: Global Geometry Is Not Enough for Vision Representations
- Title(参考訳): グローバルな幾何学は視覚表現には不十分
- Authors: Jiwan Chung, Seon Joo Kim,
- Abstract要約: 本稿では,21個の視覚エンコーダ間の構成的結合を予測するための幾何学的メトリクスの能力について検討する。
標準幾何に基づく統計は、組成結合とほぼゼロの相関を示す。
対照的に、入力出力ヤコビアンによって測定された機能感度は、この能力を確実に追跡する。
- 参考スコア(独自算出の注目度): 30.281192844979774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common assumption in representation learning is that globally well-distributed embeddings support robust and generalizable representations. This focus has shaped both training objectives and evaluation protocols, implicitly treating global geometry as a proxy for representational competence. While global geometry effectively encodes which elements are present, it is often insensitive to how they are composed. We investigate this limitation by testing the ability of geometric metrics to predict compositional binding across 21 vision encoders. We find that standard geometry-based statistics exhibit near-zero correlation with compositional binding. In contrast, functional sensitivity, as measured by the input-output Jacobian, reliably tracks this capability. We further provide an analytic account showing that this disparity arises from objective design, as existing losses explicitly constrain embedding geometry but leave the local input-output mapping unconstrained. These results suggest that global embedding geometry captures only a partial view of representational competence and establish functional sensitivity as a critical complementary axis for modeling composite structure.
- Abstract(参考訳): 表現学習における一般的な仮定は、グローバルに分散した埋め込みが堅牢で一般化可能な表現をサポートすることである。
この焦点は訓練目標と評価プロトコルの両方を形成し、グローバルジオメトリを表現能力のプロキシとして暗黙的に扱う。
地球幾何学はどの元素が存在するかを効果的にエンコードするが、どのように構成されているかには敏感であることが多い。
本稿では,21個の視覚エンコーダにまたがる構成的結合を測る幾何学的メトリクスの能力を検証することにより,この制限について検討する。
標準幾何に基づく統計は、組成結合とほぼゼロの相関を示す。
対照的に、入力出力ヤコビアンによって測定された機能感度は、この能力を確実に追跡する。
さらに、既存の損失は埋め込み幾何学を明示的に制約するが、局所的な入出力マッピングは制約しないため、この相違が客観的設計から生じることを示す分析的説明を提供する。
これらの結果は,大域的な埋め込み幾何学が表現能力の部分的な視点のみを捉え,複合構造をモデル化するための重要な補完軸として機能的感度を確立することを示唆している。
関連論文リスト
- Multi-Scale Geometric Autoencoder [10.509144950561103]
オートエンコーダ設計における重要な課題は、潜在空間におけるデータの幾何学的構造を維持することである。
幾何構造の両スケールを同時に保存するマルチスケール幾何オートエンコーダ(MAE)を提案する。
論文 参考訳(メタデータ) (2025-09-29T01:32:25Z) - Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [67.5600169375126]
ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文 参考訳(メタデータ) (2025-05-29T12:33:11Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Analytical Discovery of Manifold with Machine Learning [2.6585498155499643]
GAMLA (Global Analytical Manifold Learning using Auto-Encoding) を導入する。
GAMLAは、基礎となる多様体のキャラクタリ表現と補表現の両方を導出するために、自動符号化フレームワーク内で2ラウンドのトレーニングプロセスを採用している。
2つの表現を合わせて潜在空間全体を分解し、したがって多様体を取り巻く局所空間構造を特徴づけることができる。
論文 参考訳(メタデータ) (2025-04-03T11:53:00Z) - Geometry of the Space of Partitioned Networks: A Unified Theoretical and Computational Framework [3.69102525133732]
ネットワークの空間」は、従来の統計ツールでは適切に記述できない複雑な構造を持つ。
本稿では,グラフやハイパーグラフ,あるいはノードが分類クラスに分割されたグラフなどの一般化されたネットワーク構造をモデル化するための測度理論形式について紹介する。
我々は、我々の計量が非負曲率のアレクサンドロフ空間であることを示し、この構造を利用して、幾何データ解析タスクで一般的に生じる特定の関数の勾配を定義する。
論文 参考訳(メタデータ) (2024-09-10T07:58:37Z) - Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - AdaContour: Adaptive Contour Descriptor with Hierarchical Representation [52.381359663689004]
既存の角度ベースの輪郭記述子は、星以外の形状の損失表現に悩まされる。
AdaConは、他のディスクリプタよりも正確に形を表現できる。
論文 参考訳(メタデータ) (2024-04-12T07:30:24Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Bending Graphs: Hierarchical Shape Matching using Gated Optimal
Transport [80.64516377977183]
形状マッチングは、コンピュータグラフィックスと視覚のコミュニティにとって長い間研究されてきた問題である。
局所的なパッチレベル情報とグローバルな形状レベルの構造を組み込んだ階層型学習設計について検討する。
本研究では,非信頼ノード上の特徴を逐次更新し,形状間の一貫した一致を学習することで,新しい最適輸送解法を提案する。
論文 参考訳(メタデータ) (2022-02-03T11:41:46Z) - Denoise and Contrast for Category Agnostic Shape Completion [48.66519783934386]
本稿では,自己スーパービジョンのパワーを利用して3dポイントのクラウド補完を行うディープラーニングモデルを提案する。
Denoising Pretextタスクは、高レベルのセマンティクスから切り離された、必要なローカルキューをネットワークに提供する。
コントラスト学習は、異なる欠落部分を持つ同じ形状の変種間の一致を最大化する。
論文 参考訳(メタデータ) (2021-03-30T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。