Fugu-MT 論文翻訳(概要): On the Spectral Geometry of Cross-Modal Representations: A Functional Map Diagnostic for Multimodal Alignment

論文の概要: On the Spectral Geometry of Cross-Modal Representations: A Functional Map Diagnostic for Multimodal Alignment

arxiv url: http://arxiv.org/abs/2604.08579v1
Date: Sat, 28 Mar 2026 04:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.455516
Title: On the Spectral Geometry of Cross-Modal Representations: A Functional Map Diagnostic for Multimodal Alignment
Title（参考訳）: クロスモーダル表現のスペクトル幾何学について:マルチモーダルアライメントのための機能的マップ診断
Authors: Krisanu Sarkar,
Abstract要約: 我々は、独立に訓練された視覚(DINOv2)と言語(All-MiniLM-L6-v2)エンコーダのクロスモーダルアライメントについて検討した。両エンコーダのラプラシア固有値スペクトルは定量的に類似していることがわかった。モデルは、どれだけの構造を捉えているかに収束するが、その組織化の仕方には及ばない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study cross-modal alignment between independently pretrained vision (DINOv2) and language (all-MiniLM-L6-v2) encoders using the functional map framework from computational geometry, which represents correspondence between representation manifolds as a compact linear operator between graph Laplacian eigenbases. While the framework underperforms Procrustes alignment and relative representations for cross-modal retrieval across all supervision budgets, it reveals a structural property of multimodal representations. We find that the Laplacian eigenvalue spectra of the two encoders are quantitatively similar (normalized spectral distance 0.043), indicating that independently trained models develop manifolds of comparable intrinsic complexity. However, the functional map exhibits near-zero diagonal dominance (mean below 0.05) and large orthogonality error (70.15), showing that the eigenvector bases are effectively unaligned. We term this decoupling the spectral complexity--orientation gap: models converge in how much structure they capture but not in how they organize it. This gap defines a boundary condition for spectral alignment methods and motivates three diagnostic quantities : diagonal dominance, orthogonality deviation, and Laplacian commutativity error for characterizing cross-modal representation compatibility.
Abstract（参考訳）: グラフラプラシアン固有基底間のコンパクト線型作用素として表現多様体間の対応を表す計算幾何学から関数写像の枠組みを用いて、独立に事前訓練された視覚(DINOv2)と言語(All-MiniLM-L6-v2)エンコーダのクロスモーダルアライメントについて検討する。このフレームワークは、すべての監督予算を横断するクロスモーダル検索のためのプロクリストアライメントと相対表現を過小評価する一方で、マルチモーダル表現の構造的特性を明らかにしている。 2つのエンコーダのラプラシアン固有値スペクトルは定量的に類似していること(正規化スペクトル距離0.043)は、独立に訓練されたモデルが同値な内在的複雑性を持つ多様体を開発することを示している。しかし、関数写像は、ほぼゼロの対角線支配(平均0.05以下)と大きな直交誤差(70.15)を示し、固有ベクトル基底が効果的に非整合であることを示す。モデルは、どれだけの構造を捉えているかに収束するが、その組織化の仕方には及ばない。このギャップはスペクトルアライメント法の境界条件を定義し、対角線優位性、直交性偏差、ラプラシアン可換誤差の3つの診断量の動機付けを行う。

関連論文リスト

Spectral Path Regression: Directional Chebyshev Harmonics for Interpretable Tabular Learning [0.0]
テンソル化振動を$cos(mathbfmtoparccos(mathbfx)$という形の方向調和モードに置き換える。この表現は、少数の構造化周波数ベクトルを選択して複雑性を制御する離散スペクトル回帰モデルを生成する。
論文参考訳（メタデータ） (2026-04-05T12:13:59Z)
Foundations of Polar Linear Algebra [0.0]
この研究は、Polar Linear Algebraを導入することで、スペクトルの観点からの演算子学習を再考する。関連する演算子を定義し、そのスペクトル特性を解析する。作業の単純さにもかかわらず、結果は極性演算子と完全スペクトル演算子を確実に訓練できることを証明した。
論文参考訳（メタデータ） (2026-03-30T19:17:40Z)
Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-31T11:32:15Z)
Loss-Complexity Landscape and Model Structure Functions [53.92822954974537]
我々はコルモゴロフ構造関数 $h_x(alpha)$ を双対化するためのフレームワークを開発する。情報理論構造と統計力学の数学的類似性を確立する。構造関数と自由エネルギーの間のルジャンドル・フェンシェル双対性を明確に証明する。
論文参考訳（メタデータ） (2025-07-17T21:31:45Z)
Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Analytic bulk-edge connection in circular-symmetric models [0.0]
円周縁を持つ2次元の2バンド系の固有関数の体系的解析を提案する。固有関数の位相関係は、単位ベクトルの三次元体への写像によって記述される。
論文参考訳（メタデータ） (2025-01-19T22:04:50Z)
Latent Functional Maps: a spectral framework for representation alignment [34.20582953800544]
表現学習コミュニティに多目的フレームワークを導入し、(i)異なる空間を解釈可能な方法で比較し、その内在的類似性を測定すること、(ii)教師なしと弱教師付きの両方で対応性を見出すこと、(iii)異なる空間間の表現を効果的に伝達すること。我々は, 縫合作業から検索作業, および複数のモダリティに至るまで, 様々なアプリケーションにおいて, フレームワークを検証し, 表現アライメントのためのスウィスアームナイフとして機能することを示す。
論文参考訳（メタデータ） (2024-06-20T10:43:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。