論文の概要: GraSP-VL: Length as a Semantic Granularity Interface for Vision-Language Representations
- arxiv url: http://arxiv.org/abs/2605.17727v1
- Date: Mon, 18 May 2026 01:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.501325
- Title: GraSP-VL: Length as a Semantic Granularity Interface for Vision-Language Representations
- Title(参考訳): GraSP-VL:視覚言語表現のための意味的粒度インタフェースとしての長さ
- Authors: Zesheng Li, Chengchang Pan, Honggang Qi,
- Abstract要約: 埋め込み長を制御可能なセマンティックアクセスインタフェースに変換することができるかを検討する。
我々は,凍結VLM埋め込み上で共有直交の接頭辞変換を学習するtextbfGraSP-VLを提案する。
GraSP-VLは textbfSemantic Matryoshka インターフェースをインスタンス化する。
- 参考スコア(独自算出の注目度): 6.512147941188453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frozen vision-language embeddings contain signals at multiple semantic resolutions, from object identity to attributes, relations, and full-caption meaning, but they expose these signals through a fixed-length vector interface. We study whether embedding length can be turned into a controllable semantic access interface. We propose \textbf{GraSP-VL}, which learns a shared near-orthogonal prefix transform over frozen VLM embeddings. GraSP-VL instantiates a \textbf{Semantic Matryoshka} interface: short prefixes are assigned coarse semantic roles, while longer prefixes progressively expose finer language-grounded distinctions. Because the transform is shared across image and text embeddings and preserves full-dimensional geometry, prefix behavior changes without rewriting the original VLM space. On a 20,147-example COCO/Flickr30K annotation pool, GraSP-VL reaches a staircase score of 53.01 and hard-negative selectivity of 89.76, while keeping full-space drift below $10^{-6}$. It also transfers to SugarCrepe-clean with 86.03 object accuracy and 11.96 mean external emergence, and preserves full-dimensional zero-shot CIFAR-100 accuracy. These results show that frozen VLM embeddings can be reorganized into a truncatable semantic prefix interface rather than merely compressed.
- Abstract(参考訳): 凍結視覚言語埋め込みは、オブジェクトのアイデンティティから属性、リレーション、フルキャプションの意味まで、複数のセマンティックな解像度の信号を含んでいるが、それらは固定長のベクトルインタフェースを通じてこれらの信号を公開している。
埋め込み長を制御可能なセマンティックアクセスインタフェースに変換することができるかを検討する。
本稿では,凍結VLM埋め込み上で共有直交の接頭辞変換を学習する「textbf{GraSP-VL}」を提案する。
GraSP-VL は \textbf{Semantic Matryoshka} インターフェースをインスタンス化する: 短いプレフィックスは粗いセマンティックロールに割り当てられ、長いプレフィックスはより細かな言語基底の区別を徐々に露出する。
変換は画像とテキストの埋め込み間で共有され、全次元の幾何学を保存するため、元のVLM空間を書き換えることなくプレフィックスの振る舞いが変化する。
20,147サンプルのCOCO/Flickr30Kアノテーションプールでは、GraSP-VLの階段スコアは53.01で89.76であり、フルスペースのドリフトは10^{-6}$以下である。
また、SugarCrepe-cleanに86.03のオブジェクト精度と11.96の外部出現率を持ち、フル次元のゼロショットCIFAR-100の精度を保っている。
これらの結果から, 凍結したVLM埋め込みは単に圧縮するのではなく, 切り換え可能なセマンティックプレフィックスインターフェースに再構成可能であることがわかった。
関連論文リスト
- SegRAG: Training-Free Retrieval-Augmented Semantic Segmentation [13.665861251747144]
SegRAGは、トレーニング不要の検索拡張セグメンテーションフレームワークである。
SAM3には、DINOv3機能バンクから派生したクラス固有のポイントプロンプトがある。
4つのオープン語彙ベンチマークでは、SAM3テキストのみのベースラインよりも一貫したゲインを実現している。
論文 参考訳(メタデータ) (2026-05-17T19:51:32Z) - $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment [53.42377319350806]
$-CLIPは、多言語テキスト条件のコントラスト学習フレームワークである。
$-CALは、この階層に固有のセマンティックオーバーラップに対処する。
$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
論文 参考訳(メタデータ) (2025-12-14T13:03:20Z) - AlignSAE: Concept-Aligned Sparse Autoencoders [47.18866175760984]
本稿では,SAE の機能と定義オントロジーを"pre-train, then-train" カリキュラムで整合させる手法である AlignSAE を紹介する。
初期教師なしトレーニングフェーズの後、特定の概念を専用潜在スロットにバインドするために教師付きポストトレーニングを適用する。
この分離により、非関係な特徴から干渉することなく、特定の関係を検査・制御できる解釈可能なインターフェースが生成される。
論文 参考訳(メタデータ) (2025-12-01T18:58:22Z) - TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection [62.95726973851089]
TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。
視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
論文 参考訳(メタデータ) (2025-10-24T05:51:31Z) - SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning [38.507994878183474]
ゼロショット学習のためのセマンティック・コンテクスト化された視覚パッチ(SVIP)を紹介する。
本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。
SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-13T10:59:51Z) - Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution [36.48329560039897]
フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである
本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。
ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
論文 参考訳(メタデータ) (2023-12-13T01:16:50Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。