論文の概要: OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2506.13723v1
- Date: Mon, 16 Jun 2025 17:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.184454
- Title: OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning
- Title(参考訳): OTFusion: トランスダクティブゼロショット学習のための最適トランスポートによるブリッジングビジョンオンリーおよびビジョンランゲージモデル
- Authors: Qiyu Xu, Wenyang Chen, Zhanxuan Hu, Huafeng Li, Yonghang Tai,
- Abstract要約: OTFusionは、視覚情報と意味情報を整合した共有確率表現を学ぶことを目的としている。
OTFusionはオリジナルのCLIPモデルよりも一貫して優れており、平均精度は10%近く向上している。
- 参考スコア(独自算出の注目度): 5.818420448447699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transductive zero-shot learning (ZSL) aims to classify unseen categories by leveraging both semantic class descriptions and the distribution of unlabeled test data. While Vision-Language Models (VLMs) such as CLIP excel at aligning visual inputs with textual semantics, they often rely too heavily on class-level priors and fail to capture fine-grained visual cues. In contrast, Vision-only Foundation Models (VFMs) like DINOv2 provide rich perceptual features but lack semantic alignment. To exploit the complementary strengths of these models, we propose OTFusion, a simple yet effective training-free framework that bridges VLMs and VFMs via Optimal Transport. Specifically, OTFusion aims to learn a shared probabilistic representation that aligns visual and semantic information by minimizing the transport cost between their respective distributions. This unified distribution enables coherent class predictions that are both semantically meaningful and visually grounded. Extensive experiments on 11 benchmark datasets demonstrate that OTFusion consistently outperforms the original CLIP model, achieving an average accuracy improvement of nearly $10\%$, all without any fine-tuning or additional annotations. The code will be publicly released after the paper is accepted.
- Abstract(参考訳): Transductive Zero-shot Learning (ZSL)は、セマンティッククラス記述とラベルなしテストデータの分布の両方を活用することで、目に見えないカテゴリを分類することを目的としている。
CLIPのようなVLM(Vision-Language Model)は、視覚的な入力とテキストのセマンティクスの整合性が優れているが、クラスレベルの事前処理に強く依存し、きめ細かい視覚的手がかりを捉えることができないことが多い。
対照的に、DINOv2のようなビジョンのみのファンデーションモデル(VFM)は、豊富な知覚的特徴を提供するが、セマンティックアライメントは欠如している。
これらのモデルの相補的な長所を生かしたOTFusionは,VLMとVFMを最適輸送により橋渡しする,シンプルかつ効果的なトレーニング不要なフレームワークである。
具体的には、OTFusionは、各ディストリビューション間の転送コストを最小化し、視覚情報と意味情報を整合させる共有確率表現を学習することを目的としている。
この統一分布は、意味的に意味があり、視覚的に基礎付けられたコヒーレントなクラス予測を可能にする。
11のベンチマークデータセットに対する大規模な実験によると、OTFusionはオリジナルのCLIPモデルよりも一貫して優れており、細かいチューニングや追加アノテーションなしで平均精度が10\%近く向上している。
コードは、論文が受け入れられた後、公開されます。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Probabilistic Contrastive Learning for Domain Adaptation [42.33633916857581]
コントラスト学習は、様々な視覚的タスクにおいて、自己指導的な方法で特徴識別性を高めることに顕著な成功を収めた。
標準コントラッシブパラダイム (Features+$ell_2$ normalization) は、ドメイン適応に適用した場合の利点に制限がある。
本稿では,標準パラダイムを超える確率論的コントラスト学習(PCL)を提案する。
PCLは、確率分布を1ホット構成に導くことができ、特徴とクラス重みの差を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-11-11T02:08:07Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。