論文の概要: Geometry-Preserving Unsupervised Alignment for Heterogeneous Foundation Models
- arxiv url: http://arxiv.org/abs/2606.04385v1
- Date: Wed, 03 Jun 2026 03:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.495851
- Title: Geometry-Preserving Unsupervised Alignment for Heterogeneous Foundation Models
- Title(参考訳): 不均一基礎モデルのための幾何保存型教師なしアライメント
- Authors: Shuwen Yu, Zhanxuan Hu, Yi Zhao, Yonghang Tai, Huafeng Li,
- Abstract要約: ヴィジュアル言語基礎モデル(VLM)とヴィジュアル言語基礎モデル(VFM)の2つの支配的なパラダイムは、部分的にしか互換性がない。
本稿では,VFMとVLMの相補的強度を統合したGPUA(Geometry-Preserving Unsupervised Alignment)を提案する。
- 参考スコア(独自算出の注目度): 19.900328716457345
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have driven rapid progress in computer vision, yet the two dominant paradigms, vision-language foundation models (VLMs) and vision-only foundation models (VFMs), remain only partially compatible. VLMs offer language-grounded semantic alignment but are often visually coarse, while VFMs learn discriminative perceptual geometry but lack semantic grounding. We propose GPUA (Geometry-Preserving Unsupervised Alignment), a framework that integrates the complementary strengths of VFMs and VLMs. Inspired by cross-lingual alignment, GPUA treats VFM features as a visual language and learns an orthogonal mapping that translates the VFM space into the VLM semantic space, preserving geometry and narrowing the modality gap without labels or model parameter updates. GPUA is task-agnostic and requires only feature-level access to pretrained models. Experiments across diverse benchmarks demonstrate improved cross-model compatibility and strong gains in downstream zero-shot recognition and segmentation with negligible overhead. Code is available at https://github.com/Yuteam14/GPUA
- Abstract(参考訳): 基礎モデルはコンピュータビジョンの急速な進歩を導いてきたが、視覚言語基礎モデル(VLM)と視覚のみ基礎モデル(VFM)の2つの支配的なパラダイムは、部分的にしか互換性がない。
VLMは言語に基づくセマンティックアライメントを提供するが、視覚的に粗いことが多い。
本稿では,VFMとVLMの相補的強度を統合したGPUA(Geometry-Preserving Unsupervised Alignment)を提案する。
言語間のアライメントにインスパイアされたGPUAは、VFM機能を視覚言語として扱い、VFM空間をVLMセマンティック空間に変換する直交マッピングを学び、幾何学を保存するとともに、ラベルやモデルパラメータの更新なしにモダリティギャップを狭める。
GPUAはタスクに依存しないため、事前訓練されたモデルへの機能レベルのアクセスしか必要としない。
多様なベンチマークによる実験では、モデル間の互換性が向上し、下流でのゼロショット認識や、無視できないオーバーヘッドによるセグメンテーションが大幅に向上した。
コードはhttps://github.com/Yuteam14/GPUAで入手できる。
関連論文リスト
- Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models [31.851717131965824]
VLM(Vision-Language Models)とVGM(Video Generation Models)の最初の系統的凍結状態探索研究について述べる。
この軽量プローブを用いて,2つのモデルファミリの凍結表現にすでにコード化されている情報について,制御された比較を可能にする。
VLMはセマンティックタグ付けやインスタンスグルーピングが強く、VGMは密な幾何学やカメラの動きに対してよりアクセスしやすい信号を提供する。
論文 参考訳(メタデータ) (2026-05-27T08:20:04Z) - Unlocking Dense Metric Depth Estimation in VLMs [36.431792667223796]
VLM(Vision-Language Models)は、接地やキャプションなどの2Dタスクに優れるが、3D理解には制限がある。
本稿では,単一のVLMをネイティブな密度密度幾何学予測器に変換する,シンプルで効果的なフレームワークであるDepthVLMを提案する。
LLMバックボーンに軽量な深度ヘッドをアタッチすることで、DepthVLMは1つの前方パスで言語出力と並行してフル解像度の深度マップを生成する。
論文 参考訳(メタデータ) (2026-05-15T11:54:17Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer [48.16706802780516]
一般的な3Dファウンデーションモデルは、多様なビジョンタスクの統合のトレンドを導い始めている。
OmniVGTは、トレーニングと推論の両方において、任意の数の補助モダリティを効果的に活用できる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-13T17:59:01Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。