Fugu-MT 論文翻訳(概要): Your CLIP has 164 dimensions of noise: Exploring the embeddings covariance eigenspectrum of contrastively pretrained vision-language transformers

論文の概要: Your CLIP has 164 dimensions of noise: Exploring the embeddings covariance eigenspectrum of contrastively pretrained vision-language transformers

arxiv url: http://arxiv.org/abs/2605.14893v1
Date: Thu, 14 May 2026 14:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.879017
Title: Your CLIP has 164 dimensions of noise: Exploring the embeddings covariance eigenspectrum of contrastively pretrained vision-language transformers
Title（参考訳）: CLIPは164次元のノイズを持つ: 対照的に事前訓練された視覚言語変換器の埋め込み共分散固有スペクトルを探索する
Authors: Jakub Grzywaczewski, Dawid Płudowski, Przemysław Biecek,
Abstract要約: 事前訓練されたビジョンランゲージモデル(VLM)は強力な特徴抽出器として機能する。彼らの共有潜在空間は構造的異常を起こしやすく、非意味で多重モーダルノイズのレポジトリとして機能する。 VLM潜在空間をマルチモーダルな意味信号成分と共有雑音部分空間に分解する。
参考スコア（独自算出の注目度）: 0.764671395172401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastively pre-trained Vision-Language Models (VLMs) serve as powerful feature extractors. Yet, their shared latent spaces are prone to structural anomalies and act as repositories for non-semantic, multi-modal noise. To address this phenomenon, we employ spectral decomposition of covariance matrices to decompose the VLM latent space into a multi-modal semantic signal component and a shared noise subspace. We observe that this noise geometry exhibits strong subgroup invariance across distinct data subsets. Crucially, pruning these shared noise dimensions is mainly harmless, preserving or actively improving downstream task performance. By isolating true semantic signals from artifactual noise, this work provides new mechanistic insights into the representational structure of modern VLMs, suggesting that a substantial fraction of their latent geometry is governed by shared, architecture-level noise rather than task-relevant semantics alone.
Abstract（参考訳）: 対照的に、VLM(Vision-Language Models)は強力な特徴抽出器として機能する。しかし、それらの共有潜在空間は構造異常を起こしやすく、非意味で多重モーダルノイズのレポジトリとして機能する。この現象に対処するために、共分散行列のスペクトル分解を用いて、VLM潜在空間をマルチモーダルな意味信号成分と共有雑音部分空間に分解する。このノイズ幾何学は、異なるデータサブセット間で強い部分群不変性を示す。重要なことは、これらの共有ノイズ次元を刈り取ることは、主に無害であり、下流のタスク性能を保存または積極的に改善する。人工ノイズから真の意味信号を分離することにより、この研究は現代のVLMの表現構造に関する新しい力学的な洞察を与え、その潜在幾何学のかなりの部分はタスク関連セマンティクスだけでなく、共有されたアーキテクチャレベルのノイズによって支配されていることを示唆している。

関連論文リスト

Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso [12.238577096609761]
解釈可能なマルチモーダル表現を学習するためのCross-Modal Graphical Lasso(CM-GLasso)を提案する。新たなテキスト視覚化戦略と統合された視覚言語エンコーダを結合することにより、マルチモーダルな特徴を共有潜在空間に厳密に整列する。 CM-GLassoは、生成的分類と密接なセマンティックセグメンテーションタスクにおいて、新しい最先端技術を確立していることを示す。
論文参考訳（メタデータ） (2026-04-05T04:07:59Z)
Spectral Disentanglement and Enhancement: A Dual-domain Contrastive Framework for Representation Learning [28.392130815615545]
SDE(Spectral Disentanglement and Enhancement)は、埋め込み空間の幾何学とスペクトル特性の間のギャップを埋める新しいフレームワークである。 SDEは一貫して表現と堅牢性を改善し、最先端の手法より優れている。
論文参考訳（メタデータ） (2026-02-09T07:29:43Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-09-29T20:48:44Z)
Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文参考訳（メタデータ） (2022-06-08T16:58:47Z)
LAAT: Locally Aligned Ant Technique for discovering multiple faint low dimensional structures of varying density [0.0]
多様体学習では、密度がノイズによって示されるものよりもかなり高い場合、背景雑音や構造に近いノイズを除去する解がいくつか示されている。本稿では,Antコロニー最適化のアイデアに基づいて,雑音の存在下で多様体点を抽出する新しい手法を提案する。既存のランダムウォーク解とは対照的に、我々の手法は多様体の主方向と局所的に一致した点を捉える。
論文参考訳（メタデータ） (2020-09-17T14:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。