Fugu-MT 論文翻訳(概要): Do Vision and Language Encoders Represent the World Similarly?

論文の概要: Do Vision and Language Encoders Represent the World Similarly?

arxiv url: http://arxiv.org/abs/2401.05224v1
Date: Wed, 10 Jan 2024 15:51:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 14:19:32.444658
Title: Do Vision and Language Encoders Represent the World Similarly?
Title（参考訳）: 視覚と言語エンコーダは世界を表現するか?
Authors: Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Mohamed El Amine Seddik, Karttikeya Mangalam, Noel E. O'Connor
Abstract要約: CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。これは、一様視と言語エンコーダの間にアライメントが存在し、それらは基本的に同じ物理世界を表すのだろうか? 非整列および整列エンコーダの表現空間は意味論的に類似していることがわかった。 CLIPのようなアライメントエンコーダに統計的に類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。
参考スコア（独自算出の注目度）: 23.84567851014758
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Aligned text-image encoders such as CLIP have become the de facto model for vision-language tasks. Furthermore, modality-specific encoders achieve impressive performances in their respective domains. This raises a central question: does an alignment exist between uni-modal vision and language encoders since they fundamentally represent the same physical world? Analyzing the latent spaces structure of vision and language models on image-caption benchmarks using the Centered Kernel Alignment (CKA), we find that the representation spaces of unaligned and aligned encoders are semantically similar. In the absence of statistical similarity in aligned encoders like CLIP, we show that a possible matching of unaligned encoders exists without any training. We frame this as a seeded graph-matching problem exploiting the semantic similarity between graphs and propose two methods - a Fast Quadratic Assignment Problem optimization, and a novel localized CKA metric-based matching/retrieval. We demonstrate the effectiveness of this on several downstream tasks including cross-lingual, cross-domain caption matching and image classification.
Abstract（参考訳）: CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。さらに、モダリティ固有のエンコーダは、それぞれのドメインで印象的なパフォーマンスを達成する。これは、一様視と言語エンコーダの間にアライメントが存在し、それらは基本的に同じ物理世界を表すのだろうか? Centered Kernel Alignment (CKA) を用いた画像キャプションベンチマークにおいて,視覚と言語モデルの潜在空間構造を解析した結果,不整合および整合エンコーダの表現空間は意味的に類似していることがわかった。 CLIPのようなアライメントエンコーダの統計的類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。本稿では,グラフ間のセマンティックな類似性を利用したグラフマッチング問題として,高速2次アサインメント問題最適化と,新しい局所化CKAメトリックベースのマッチング/検索という2つの手法を提案する。本稿では, 言語横断, ドメイン横断のキャプションマッチング, 画像分類など, 下流タスクにおけるこれの有効性を示す。

関連論文リスト

Decoupling Vision and Language: Codebook Anchored Visual Adaptation [20.393987361723724]
LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換する。既存のアダプティブメソッドは、プロジェクタチューニングやその他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の連続的な機能インターフェースを変更する。 CRAFTは,視覚表現を安定なトークン空間に固定する離散コードブックを用いて,エンコーダを微調整する軽量な手法である。
論文参考訳（メタデータ） (2026-02-23T02:39:26Z)
Image Recognition with Vision and Language Embeddings of VLMs [14.022566577479322]
視覚言語モデル(VLM)は、画像テキストアライメントによる強力なゼロショット分類を実現している。言語誘導画像と視覚のみの画像分類を多種多様なデュアルエンコーダVLMを用いて包括的に評価する。精度に影響を及ぼす重要な要因は、素早い設計、クラス多様性、k-NNの隣人数、参照セットサイズなどである。
論文参考訳（メタデータ） (2025-09-11T09:54:25Z)
FLAVARS: A Multimodal Foundational Language and Vision Alignment Model for Remote Sensing [5.170800801074805]
コントラスト学習とマスクモデリングを組み合わせた事前学習手法であるFLAVARSを提案する。 FLAVARSは、KNN分類のような視覚のみのタスクにおいて、SkyCLIPのベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-01-14T23:31:20Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [4.682326604942316]
我々は,様々な画像分類タスクにおいて高精度な視覚言語基礎モデルであるコントラスト言語-画像事前学習(CLIP)に注目した。リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。 CLIPの視覚的・テキスト的モダリティと異なるRS画像モダリティを一致させる手法を提案する。
論文参考訳（メタデータ） (2024-02-15T09:31:07Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Unified Mask Embedding and Correspondence Learning for Self-Supervised Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文参考訳（メタデータ） (2023-03-17T16:23:36Z)
Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文参考訳（メタデータ） (2022-12-21T18:58:41Z)
Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文参考訳（メタデータ） (2022-07-21T10:31:39Z)
CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文参考訳（メタデータ） (2022-05-28T15:31:17Z)
Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (2022-01-10T18:59:10Z)
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文参考訳（メタデータ） (2021-06-29T12:27:05Z)
A comparison of self-supervised speech representations as input features for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文参考訳（メタデータ） (2020-12-14T10:17:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。