論文の概要: Prompt the Unseen: Evaluating Visual-Language Alignment Beyond Supervision
- arxiv url: http://arxiv.org/abs/2509.00700v2
- Date: Tue, 09 Sep 2025 03:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.778364
- Title: Prompt the Unseen: Evaluating Visual-Language Alignment Beyond Supervision
- Title(参考訳): Prompt the Unseen: スーパービジョンを超えたビジュアルランゲージアライメントの評価
- Authors: Raehyuk Jung, Seungjun Yu, Hyunjung Shim,
- Abstract要約: VLM(Vision-Language Models)は、視覚エンコーダと大規模言語モデル(LLM)を組み合わせたアライメントトレーニングである。
その重要性にもかかわらず、投影層が見えない視覚概念を一般化する能力は体系的に評価されていない。
本研究ではアライメント一般化のための新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.712690974750007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) combine a vision encoder and a large language model (LLM) through alignment training, showing strong performance on multimodal tasks. A central component in this architecture is the projection layer, which maps visual features into the LLM's embedding space. Despite its importance, its ability to generalize to unseen visual concepts has not been systematically evaluated. To address this, we propose a benchmark for evaluating projection-layer generalization. We adapt object detection datasets (rich in fine-grained annotations) into a prompting format and design train/test splits with disjoint label sets, enabling precise control over seen and unseen concept separation. Experimental results show that the projection layer retains about 79 to 88 percent of the performance on unseen classes compared to seen ones across various settings, suggesting a non-trivial level of generalization even without explicit alignment supervision on those concepts. We further analyze this behavior through a mechanistic interpretability lens. Our findings indicate that the feed-forward network in the projection layer functions like a key-value memory, processing seen and unseen tokens in similar ways. This study introduces a new evaluation framework for alignment generalization and highlights the potential for efficient VLM training with limited aligned data.
- Abstract(参考訳): 視覚言語モデル(VLM)は、アライメントトレーニングを通じて視覚エンコーダと大きな言語モデル(LLM)を組み合わせることで、マルチモーダルタスク上での強いパフォーマンスを示す。
このアーキテクチャの中心的なコンポーネントはプロジェクション層であり、視覚的特徴をLLMの埋め込み空間にマッピングする。
その重要性にもかかわらず、見えない視覚概念に一般化する能力は体系的に評価されていない。
そこで本研究では,投影層一般化評価のためのベンチマークを提案する。
オブジェクト検出データセット(詳細なアノテーションに富んだ)をプロンプト形式に適応させ、不連続なラベルセットでトレイン/テストの分割を設計し、見知らぬ概念分離を正確に制御できるようにします。
実験結果から,プロジェクション層は様々な設定で見られているものと比較して,79~88%の性能を維持しており,これらの概念に明確なアライメントの監督がなくても,非自明な一般化のレベルが示唆された。
さらに、メカニスティックな解釈可能性レンズを用いて、この挙動を解析する。
この結果から,プロジェクション層内のフィードフォワードネットワークは,キー値メモリや処理の可視性,不明なトークンのように機能することがわかった。
本研究では、アライメント一般化のための新しい評価フレームワークを導入し、限られたアライメントデータを用いた効率的なVLMトレーニングの可能性を強調した。
関連論文リスト
- Self-supervised structured object representation learning [2.747398258852965]
自己教師付き学習は視覚表現を学習するための強力な技術として登場した。
本稿では, セマンティックグルーピング, インスタンスレベルの分離, 階層的構造化を組み合わせることで, 構造化された視覚表現を構築する自己教師型アプローチを提案する。
提案手法は,新しいProtoScaleモジュールをベースとして,複数の空間スケールにわたる視覚的要素をキャプチャする。
論文 参考訳(メタデータ) (2025-08-27T13:28:05Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Control-oriented Clustering of Visual Latent Representation [3.9838014203847862]
ビヘイビアクローンから学習した画像ベース制御パイプラインにおける視覚表現空間の幾何学について検討する。
神経崩壊現象に触発されて、視覚表現空間におけるクラスタリングの同様の法則を示す。
このようなクラスタリングの法則を,テスト時間性能を改善するアルゴリズムツールとして活用できることを示す。
論文 参考訳(メタデータ) (2024-10-07T14:21:51Z) - Refining Skewed Perceptions in Vision-Language Contrastive Models through Visual Representations [0.033483662989441935]
大規模視覚言語コントラストモデル(VLCM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Self-supervised Learning of Contextualized Local Visual Embeddings [0.0]
Contextualized Local Visual Embeddings (CLoVE) は、密集した予測タスクに適した表現を学習する自己教師型畳み込み方式である。
CLoVEの事前訓練された表現を複数のデータセットでベンチマークする。
CLOVEは、CNNベースのアーキテクチャに対して、下流の4つの密集した予測タスクで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-10-01T00:13:06Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。