論文の概要: It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
- arxiv url: http://arxiv.org/abs/2503.24129v1
- Date: Mon, 31 Mar 2025 14:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:37.190728
- Title: It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data
- Title(参考訳): It's a (Blind) Match! toward the Vision-Language Cor correspondingence without Parallel Data
- Authors: Dominik Schnaus, Nikita Araslanov, Daniel Cremers,
- Abstract要約: ビジョンと言語埋め込みは、モデルとデータセットのサイズが大きくなるにつれて、より均一になる。
基礎モデルが成熟するにつれて、ビジョンと言語埋め込みを完全に教師なしの方法で一致させることができるかもしれない。
本研究は,既存のビジョンと言語基盤モデルの適合性について考察する。
- 参考スコア(独自算出の注目度): 43.438944054637986
- License:
- Abstract: The platonic representation hypothesis suggests that vision and language embeddings become more homogeneous as model and dataset sizes increase. In particular, pairwise distances within each modality become more similar. This suggests that as foundation models mature, it may become possible to match vision and language embeddings in a fully unsupervised fashion, i.e. without parallel data. We present the first feasibility study, and investigate conformity of existing vision and language foundation models in the context of unsupervised, or "blind", matching. First, we formulate unsupervised matching as a quadratic assignment problem and introduce a novel heuristic that outperforms previous solvers. We also develop a technique to find optimal matching problems, for which a non-trivial match is very likely. Second, we conduct an extensive study deploying a range of vision and language models on four datasets. Our analysis reveals that for many problem instances, vision and language representations can be indeed matched without supervision. This finding opens up the exciting possibility of embedding semantic knowledge into other modalities virtually annotation-free. As a proof of concept, we showcase an unsupervised classifier, which achieves non-trivial classification accuracy without any image-text annotation.
- Abstract(参考訳): プラトニックな表現仮説は、モデルやデータセットのサイズが大きくなるにつれて、視覚と言語の埋め込みがより均一になることを示している。
特に、各モダリティ内の対距離はより類似している。
これは、基礎モデルが成熟するにつれて、ビジョンと言語埋め込みを完全に教師なしの方法で、すなわち並列データなしで一致させることができることを示唆している。
本研究は、教師なし、もしくは「盲人」マッチングの文脈において、既存のビジョンと言語基盤モデルの適合性について検討する。
まず、教師なしマッチングを二次代入問題として定式化し、従来の解法よりも優れた新しいヒューリスティックを導入する。
また,非自明なマッチングの可能性が極めて高い最適マッチング問題を見つける手法も開発している。
第2に、4つのデータセット上に様々なビジョンと言語モデルをデプロイする広範な研究を行う。
我々の分析によると、多くの問題の場合、視覚と言語表現は、実際に監督なしで一致させることができる。
この発見は、意味的な知識を他のモダリティに組み込むというエキサイティングな可能性を開く。
概念実証として、画像テキストアノテーションを使わずに非自明な分類精度を実現する教師なし分類器を紹介する。
関連論文リスト
- The "Law" of the Unconscious Contrastive Learner: Probabilistic Alignment of Unpaired Modalities [23.188014611990152]
本稿では, 対比表現の幾何学的解釈と確率論的解釈について述べる。
これらの表現が確率的グラフィカルモデルと同じ推論の多くにどのように答えるかを示す。
分析では、事前学習されたコントラストモデルを用いた設定でのコントラスト表現と、強化学習における言語あいまいさの2つの新しい方法を提案する。
論文 参考訳(メタデータ) (2025-01-20T08:10:15Z) - What could go wrong? Discovering and describing failure modes in computer vision [27.6114923305978]
言語に基づく誤り説明可能性(LBEE)の問題を定式化する。
我々は,共同視覚・言語埋め込み空間で機能するソリューションを提案する。
提案手法は,特定の誤りの原因に関連する非自明な文を分離する。
論文 参考訳(メタデータ) (2024-08-08T14:01:12Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - A Brief Overview of Unsupervised Neural Speech Representation Learning [12.850357461259197]
本稿では,過去10年間の音声教育における教師なし表現学習の展開について概観する。
自己教師型手法と確率的潜在変数モデルという2つの主要なモデルカテゴリを同定する。
論文 参考訳(メタデータ) (2022-03-01T11:15:35Z) - A Call for More Rigor in Unsupervised Cross-lingual Learning [76.6545568416577]
このような研究の既存の理論的根拠は、世界の多くの言語における並列データの欠如に基づいている。
並列データと豊富なモノリンガルデータのないシナリオは現実的には非現実的であると我々は主張する。
論文 参考訳(メタデータ) (2020-04-30T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。