論文の概要: Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models
- arxiv url: http://arxiv.org/abs/2506.02557v1
- Date: Tue, 03 Jun 2025 07:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.407307
- Title: Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models
- Title(参考訳): カーネルベース非教師付き埋め込みアライメントによる視覚言語モデルにおける視覚表現の強化
- Authors: Shizhan Gong, Yankai Jiang, Qi Dou, Farzan Farnia,
- Abstract要約: 本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。
画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
- 参考スコア(独自算出の注目度): 18.02840698188587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models, such as CLIP, have achieved significant success in aligning visual and textual representations, becoming essential components of many multi-modal large language models (MLLMs) like LLaVA and OpenFlamingo. However, numerous studies have identified CLIP's limited fine-grained perception as a critical drawback, leading to substantial failures in downstream MLLMs. In contrast, vision-centric foundation models like DINOv2 demonstrate remarkable capabilities in capturing fine details from images. In this work, we propose a novel kernel-based method to align CLIP's visual representation with that of DINOv2, ensuring that the resulting embeddings maintain compatibility with text embeddings while enhancing perceptual capabilities. Our alignment objective is designed for efficient stochastic optimization. Following this image-only alignment fine-tuning, the visual encoder retains compatibility with the frozen text encoder and exhibits significant improvements in zero-shot object recognition, fine-grained spatial reasoning, and localization. By integrating the aligned visual encoder, downstream MLLMs also demonstrate enhanced performance.
- Abstract(参考訳): CLIPのような視覚言語モデルは、視覚的およびテキスト的表現の整合において大きな成功を収め、LLaVAやOpenFlamingoのような多くのマルチモーダルな大規模言語モデル(MLLM)の重要なコンポーネントとなった。
しかし、多くの研究がCLIPの限られたきめ細かい認識を重大な欠点として認識し、下流MLLMにかなりの失敗をもたらした。
対照的に、DINOv2のような視覚中心の基盤モデルは、画像から細部を捉える素晴らしい能力を示している。
本研究では,CLIPの視覚表現をDINOv2と整合させる新しいカーネルベースの手法を提案する。
我々のアライメントの目的は、効率的な確率最適化のために設計されている。
この画像のみのアライメントの微調整に続いて、ビジュアルエンコーダは凍結したテキストエンコーダとの互換性を維持し、ゼロショットオブジェクト認識、きめ細かい空間推論、ローカライゼーションの大幅な改善を示す。
また、アライメントされたビジュアルエンコーダを統合することで、下流MLLMの性能も向上した。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。