論文の概要: HyperVis: Continuous Latent Visual Relational Graphs on the Lorentz Hyperboloid for Compositional Reasoning
- arxiv url: http://arxiv.org/abs/2606.06100v1
- Date: Thu, 04 Jun 2026 12:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.666239
- Title: HyperVis: Continuous Latent Visual Relational Graphs on the Lorentz Hyperboloid for Compositional Reasoning
- Title(参考訳): HyperVis: 合成推論のためのローレンツハイパーボロイド上の連続潜時視覚関係グラフ
- Authors: Moshiur Farazi, Sameera Ramasinghe, Mahbub Ahmed Turza, Shafin Rahman,
- Abstract要約: 我々はSGGセマンティックボトルネックを完全に回避するtextbfHyperVisを提案する。
我々は空間的に偏った交叉アテンションを通して高密度な$O(N2)$ビジュアルリレーションテンソルを計算し、ローレンツ双曲体に投影し、空間物理学、すなわちIoA駆動のエンテーメントコーンと外角反発によって階層を強制する。
- 参考スコア(独自算出の注目度): 19.982012555038573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) struggle with compositional reasoning that requires understanding inter-object relationships. A natural remedy is to inject explicit scene graph triplets $\langle s, p, o \rangle$ from an off-the-shelf scene graph generator (SGG), but we show this backfires: discrete text labels collide with the continuous visual modality, degrading GQA accuracy from 60.38\% to 58.86\%. We propose \textbf{HyperVis}, which bypasses the SGG semantic bottleneck entirely. From $N$ class-agnostic region proposals, we compute a dense $O(N^2)$ visual relation tensor via spatially-biased cross-attention, project it onto a Lorentz hyperboloid, and enforce hierarchy through spatial physics, namely IoA-driven entailment cones and exterior-angle repulsion. We discover that HyperVis contributes in two complementary ways: (1) as a \emph{training-time regularizer}, the hyperbolic relational losses shape LoRA representations that improve generative VQA (GQA 61.03\% vs.\ 57.21\% for LoRA fine-tuning without relational losses, recovering and surpassing the baseline); and (2) as an \emph{inference-time relational encoder}, hyperbolic prefix tokens boost discriminative compositional scoring (SugarCrepe 79.94\%, $+$6.25pp over baseline). The learned curvature stabilises at $κ{=}4.0$, an order of magnitude above prior hyperbolic VLMs where $κ$ typically collapses toward zero, indicating that continuous visual features genuinely require the exponential volume of strongly curved space. A controlled Euclidean ablation confirms this decomposition: the relational pipeline regularises LoRA comparably in flat space (GQA 60.81\%), but the compositionality gain is specifically hyperbolic (SugarCrepe $+$4.58pp over Euclidean), with entailment loss ${\sim}6{\times}$ higher in Euclidean training. Codes are available at TBA.
- Abstract(参考訳): VLM(Vision-Language Models)は、オブジェクト間の関係を理解する必要がある構成的推論に苦慮する。
自然の対策として、露骨なシーングラフ三重項$\langle s, p, o \rangle$をオフザシェルのシーングラフ生成器(SGG)から注入することであるが、このバックファイアを示す: 離散テキストラベルは連続的な視覚的モダリティと衝突し、GQAの精度を60.38\%から58.86\%に低下させる。
本稿では,SGGセマンティック・ボトルネックを完全に回避した \textbf{HyperVis} を提案する。
N$クラス非依存領域の提案から、空間的に偏りを持つクロスアテンションを介して高密度な$O(N^2)$ビジュアルリレーションテンソルを計算し、ローレンツ双曲体に投影し、空間物理学、すなわちIoA駆動のエンテーメント円錐と外角反発によって階層を強制する。
ハイパービジョンは,(1)emph{training-time regularizer} として,生成性VQA(GQA 61.03\% vs. GQA 61.03\%)を改善する双曲型リレーショナル損失形 LoRA 表現の2つの相補的方法に寄与することがわかった。
57.21\% の LoRA 微調整では、リレーショナル損失がなく、ベースラインを回復し、超える。(2) の \emph{inference-time relational encoder} として、双曲的な接頭辞は、差別的な合成スコアを高める(SugarCrepe 79.94\%, $+$6.25pp over baseline)。
学習された曲率の安定化は$κ{=}4.0$であり、これは従来の双曲型 VLM よりも桁違いに大きく、そこでは$κ$は通常ゼロに向かって崩壊し、連続的な視覚的特徴が真に強く湾曲した空間の指数体積を必要とすることを示している。
リレーショナルパイプラインは LoRA を平坦な空間(GQA 60.81 %)で可分に正規化するが、組成的ゲインは特に双曲的である(SugarCrepe $+4.58pp over Euclidean)。
コードはTBAで入手できる。
関連論文リスト
- The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training [0.0]
ニューラルネットワークトレーニングにおける位相遷移は,パラメータ更新の回転ウィンドウグラム行列のスペクトルギャップによって制御されることを示す。
adiabatic parameter $mathcalA = |G|_F / (, g2)$ control circuit stability: $mathcalA ll 1$ (plateau), $mathcalA sim 1$ (phase transition), $mathcalA gg 1$ (forgetting)
論文 参考訳(メタデータ) (2026-03-30T20:10:22Z) - A Hyperbolic Perspective on Hierarchical Structure in Object-Centric Scene Representations [58.143688187023734]
双曲空間のローレンツ双曲体にユークリッドスロット埋め込みを投影する簡単なパイプラインを提案する。
スロットアテンションマスクから直接5段階の視覚階層を構築する。
双曲的プロジェクションは、一貫したシーンレベルをオブジェクトレベル組織に公開する。
論文 参考訳(メタデータ) (2026-03-14T16:53:59Z) - GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models [6.2676602262188625]
VLAモデルは、内在的な幾何学構造を持たない2次元パッチトークンとして視覚観察を符号化する。
GST-VLAを2つのコントリビューションで紹介する。
第一に、ガウス空間Tokenizer (GST) は凍った深度と凍ったセマンティックパッチの特徴を3Dプリミティブに変換する。
第二に、DA-CoT推論は4つの構造化された中間空間的思考を監督する。
論文 参考訳(メタデータ) (2026-03-10T01:39:38Z) - On the Superlinear Relationship between SGD Noise Covariance and Loss Landscape Curvature [1.6773271875801752]
グラディエントDescent (SGD) は、損失ランドスケープの局所曲率と相関する異方性雑音を導入し、平坦なミニマに対して最適化を行う。
この仮定は、ディープニューラルネットワークでは通常違反される制約条件下でのみ成立することを示す。
データセット、アーキテクチャ、損失関数にわたる実験は、これらの境界を検証し、ディープラーニングにおけるノイズ-曲率関係を統一的に評価する。
論文 参考訳(メタデータ) (2026-02-05T12:35:13Z) - Minimax Rates for Hyperbolic Hierarchical Learning [3.3192479135000426]
階層データから学習するためのユークリッド表現と双曲表現の指数関数的分離を証明した。
任意のランク-$k$予測空間は、O(k)$標準階層的コントラストのみをキャプチャする。
論文 参考訳(メタデータ) (2026-01-27T20:50:24Z) - Segmented strings and holography [0.0]
本稿では,AdS側の文字列セグメントのワールドシートの面積をCFT側の忠実度感受性に接続可能であることを示す。
この量は、因果ダイヤモンドに対応する無限に分離された状態に対する計算複雑性として別の解釈を持つ。
論文 参考訳(メタデータ) (2023-04-20T15:25:35Z) - Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games [85.78272987312343]
我々は、効率よく非結合な学習力学を確立し、各プレイヤーのトリガー後悔は、プレイの繰り返しの後に$O(log T)$として成長する。
これにより、これまでよく知られていた$O(T1/4)$よりも指数関数的に改善される。
論文 参考訳(メタデータ) (2022-08-20T20:48:58Z) - Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization [59.65871549878937]
実用的な単一ループ加速勾配追跡には$O(fracgamma1-sigma_gamma)2sqrtfracLepsilon)$が必要であることを証明している。
我々の収束率は$O(frac1epsilon5/7)$と$O(fracLmu)5/7frac1(1-sigma)1.5logfrac1epsilon)$よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-06T15:34:14Z) - Adversarial Linear Contextual Bandits with Graph-Structured Side
Observations [80.95090605985042]
学習エージェントは、$d$-dimensionalコンテキストベクトルで提示された後、一連の$k$アクションから繰り返し選択する。
エージェントは選択されたアクションの損失を誘発し、観察するが、観察構造における隣り合うアクションの損失も観察する。
textttEXP3に基づく2つの効率的なアルゴリズムが開発された。
論文 参考訳(メタデータ) (2020-12-10T15:40:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。