論文の概要: GeoFlowVLM: Geometry-Aware Joint Uncertainty for Frozen Vision-Language Embedding
- arxiv url: http://arxiv.org/abs/2605.13352v1
- Date: Wed, 13 May 2026 11:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.002558
- Title: GeoFlowVLM: Geometry-Aware Joint Uncertainty for Frozen Vision-Language Embedding
- Title(参考訳): GeoFlowVLM:凍結ビジョンランゲージ埋め込みのための幾何学的関節不確かさ
- Authors: Mayank Nautiyal, Li Ju, Andreas Hellander, Ekta Vats, Prashant Singh,
- Abstract要約: ペア化された$ell$-normalized dual-encoder VLM の結合分布を学習するポストホックアダプタとして textbfGeoFlowVLM を提案する。
整合性の結果, 人口制限下では, トレーニングされたネットワークは, 接合流と両モード条件流を露呈することがわかった。
この単一モデルから2つの量を得る:Fano型境界による決定論的解釈でアレター的曖昧さを定量化する条件付き検索エントロピーと、関節NLLの正確な連鎖ルール分解によって正当化される限界特異性スコアである。
- 参考スコア(独自算出の注目度): 3.0708725114491293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard dual-encoder vision-language models that map images and text to deterministic points on a shared unit hypersphere through $\ell_2$ normalization typically expose neither \emph{aleatoric} uncertainty (cross-modal ambiguity) nor \emph{epistemic} uncertainty (lack of training-distribution support). Existing post-hoc methods either recover at most one of the two uncertainty components, or ignore the hyperspherical geometry of these models' embeddings. We propose \textbf{GeoFlowVLM} as a post-hoc adapter that learns the joint distribution of paired $\ell_2$-normalised dual-encoder VLM embeddings on the product hypersphere $\mathbb{S}^{d-1} \times \mathbb{S}^{d-1}$ via Riemannian flow matching with a single masked velocity field. A consistency result shows that, in the population limit, the trained network exposes the joint flow and both cross-modal conditional flows as valid Riemannian flow-matching velocity fields on their respective domains. We derive two quantities from this single model: a conditional retrieval entropy that quantifies aleatoric ambiguity with a decision-theoretic interpretation via a Fano-type bound, and a marginal-typicality epistemic score justified by an exact chain-rule decomposition of the joint NLL. This decomposition isolates a cross-modal pointwise-mutual-information term that is structurally discriminative rather than epistemic, and is empirically the only consistently uninformative standalone component. Empirically, the entropy tracks Recall@1 with near-ideal monotonic calibration across three retrieval benchmarks in both directions, and the marginal-typicality sum yields consistently calibrated selective accuracy across four zero-shot classification benchmarks.
- Abstract(参考訳): 画像とテキストを共有単位超球面上の決定論的な点にマッピングする標準的なデュアルエンコーダビジョン言語モデルは、$\ell_2$正規化によって、通常、 \emph{aleatoric}不確実性(モデム間のあいまいさ)も \emph{epistemic}不確実性(トレーニングと配布のサポートの欠如)も露呈しない。
既存のポストホック法は、2つの不確実性成分のほとんどを回復するか、あるいはこれらのモデルの埋め込みの超球面幾何学を無視するかのいずれかである。
積超球面 $\mathbb{S}^{d-1} \times \mathbb{S}^{d-1} \times \mathbb{S}^{d-1}$ 上のペア付き $\ell_2$-normalized dual-encoder VLM の結合分布を1つのマスク付速度場とマッチングして学習するポストホックアダプタとして \textbf{GeoFlowVLM} を提案する。
整合性の結果, 訓練されたネットワークは, それぞれの領域上のリーマン流整合速度場として, 連接流と両モード間条件流を露呈することがわかった。
この単一モデルから,Fano型境界による決定論的解釈でアレター的曖昧さを定量化する条件付き検索エントロピーと,関節NLLの正確な鎖-ルール分解によって正当化される限界-特異性エピステマスコアの2つを導出する。
この分解は、エピステミックではなく構造的に区別されるクロスモーダルな点-ミューチュアル-情報項を分離し、経験的に唯一一貫した非形式的独立成分である。
実験的に、エントロピートラックRecall@1は、両方向の3つの検索ベンチマークでほぼ理想的モノトニックなキャリブレーションを施し、限界-特異性の和は、4つのゼロショット分類ベンチマークで選択的精度を一定に調整する。
関連論文リスト
- Sobolev Regularized MMD Gradient Flow [22.929984194375805]
勾配規則化MDD流の正規化変種を提案する。
提案した正規化は、平均核平均埋め込みの違いを緩和する。
提案した流れの重要な特徴は、両方のサンプリング(非正規化対象分布からの)に適用可能であることである。
論文 参考訳(メタデータ) (2026-05-12T09:58:19Z) - Discrete Flow Matching: Convergence Guarantees Under Minimal Assumptions [13.856153548136826]
Flow Matchingは、ターゲット分布をシミュレートするための一般的な生成モデルのクラスとして最近登場した。
時間離散化によってサンプル化した $mathbbZ_md = 0,ldots,m-1d$ の DFM モデルについて検討した。
ターゲット分布の早期停止版に対するKulback--Leibler分散の非漸近境界を導出する。
論文 参考訳(メタデータ) (2026-05-09T11:06:33Z) - Entropy-Controlled Flow Matching [0.08460698440162889]
本稿では,グローバルエントロピーレートの予算d/dt H(mu_t) >=-lambdaを強制する連続性方程式パスに対する制約付き変分原理を提案する。
そこで我々は,Lipschitzによる証明型モード被覆と密度フロア保証を取得し,非拘束フローマッチングのための準最適逆例を構築した。
論文 参考訳(メタデータ) (2026-02-25T06:07:01Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Universality of high-dimensional scaling limits of stochastic gradient descent [8.760293543857706]
我々は、損失がデータに依存する高次元のタスクを、パラメータベクトルと特定の基底真理ベクトルにまたがる固定次元部分空間への射影を通してのみ考える。
これには、1層と2層ネットワークでクロスエントロピー損失を伴う混合分布の分類と、1層と2層ネットワークでシングルインデックスモデルとマルチインデックスモデルを学ぶことが含まれる。
論文 参考訳(メタデータ) (2025-12-15T18:30:26Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Exact Recovery in the General Hypergraph Stochastic Block Model [92.28929858529679]
本稿では,d-uniform hypergraph block model(d-HSBM)の正確な回復の基本的な限界について検討する。
精度の高いしきい値が存在し、正確な回復がしきい値の上に達成でき、その下には不可能であることを示す。
論文 参考訳(メタデータ) (2021-05-11T03:39:08Z) - Spectral clustering under degree heterogeneity: a case for the random
walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。
次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文 参考訳(メタデータ) (2021-05-03T16:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。