論文の概要: Equivariant Similarity for Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2303.14465v1
- Date: Sat, 25 Mar 2023 13:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:33:07.296476
- Title: Equivariant Similarity for Vision-Language Foundation Models
- Title(参考訳): 視覚言語基礎モデルの同変類似性
- Authors: Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang,
Hanwang Zhang, Zicheng Liu, Lijuan Wang
- Abstract要約: 本研究は、主要な訓練目的だけでなく、下流タスクをサポートするためのコアデリバリであるマルチモーダル類似性関数に焦点を当てる。
一致した2組のトレーニングペアから効率よく計算できる正規化損失であるEqSimを提案する。
既存の評価セットと比較すると、EqBenは"視覚的最小限の変化"に最初に焦点を当てている。
- 参考スコア(独自算出の注目度): 108.57382292866977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the concept of equivariance in vision-language foundation
models (VLMs), focusing specifically on the multimodal similarity function that
is not only the major training objective but also the core delivery to support
downstream tasks. Unlike the existing image-text similarity objective which
only categorizes matched pairs as similar and unmatched pairs as dissimilar,
equivariance also requires similarity to vary faithfully according to the
semantic changes. This allows VLMs to generalize better to nuanced and unseen
multimodal compositions. However, modeling equivariance is challenging as the
ground truth of semantic change is difficult to collect. For example, given an
image-text pair about a dog, it is unclear to what extent the similarity
changes when the pixel is changed from dog to cat? To this end, we propose
EqSim, a regularization loss that can be efficiently calculated from any two
matched training pairs and easily pluggable into existing image-text retrieval
fine-tuning. Meanwhile, to further diagnose the equivariance of VLMs, we
present a new challenging benchmark EqBen. Compared to the existing evaluation
sets, EqBen is the first to focus on "visual-minimal change". Extensive
experiments show the lack of equivariance in current VLMs and validate the
effectiveness of EqSim. Code is available at
\url{https://github.com/Wangt-CN/EqBen}.
- Abstract(参考訳): 本研究は,視覚言語基礎モデル(VLM)における等価性の概念を考察し,下流タスクをサポートするためのコアデリバリだけでなく,主要なトレーニング目的であるマルチモーダル類似性関数に焦点をあてる。
一致した対と一致しない対を相似としか分類しない既存の画像-テキスト類似性目的とは異なり、同値性は意味的変化に応じて忠実に変化するように類似性を必要とする。
これにより、VLMはニュアンスや見えないマルチモーダル合成をより一般化することができる。
しかし,意味変化の根底にある真理は収集が難しいため,同値のモデル化は困難である。
例えば、犬に関する画像とテキストのペアを考えると、犬から猫にピクセルが変化したときの類似性がどの程度変化するかは明らかではない。
そこで本研究では,2組の学習ペアから効率的に計算でき,既存の画像テキスト検索の微調整に容易にプラグインできる正規化損失であるeqsimを提案する。
一方, vlms の等価性をさらに診断するために, 新たな挑戦的ベンチマーク eqben を提案する。
既存の評価セットと比較すると、EqBenは"視覚的最小限の変化"にフォーカスした最初のものである。
大規模な実験は、現在のVLMに等価性の欠如を示し、EqSimの有効性を検証する。
コードは \url{https://github.com/Wangt-CN/EqBen} で入手できる。
関連論文リスト
- Relaxed Equivariance via Multitask Learning [7.905957228045955]
マルチタスク学習と等価性を近似するトレーニング手法であるREMULを紹介する。
制約のないモデルは、追加の単純な等分散損失を最小化することにより、近似対称性を学習できることが示される。
提案手法は, 等変ベースラインと比較して, 推論時の10倍, トレーニング時の2.5倍の速さで, 競争性能が向上する。
論文 参考訳(メタデータ) (2024-10-23T13:50:27Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - CARL: A Framework for Equivariant Image Registration [17.976933318883333]
画像登録は、一対の画像間の空間対応を推定する。
形式的には、推定子は所望の画像変換のクラスに同値であるべきである。
本稿では,多段階$[W,U]$等分散を座標アテンション機構と変位予測層を併用して実現する方法を示す。
論文 参考訳(メタデータ) (2024-05-27T01:06:58Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - Quantised Transforming Auto-Encoders: Achieving Equivariance to
Arbitrary Transformations in Deep Networks [23.673155102696338]
畳み込みニューラルネットワーク(CNN)は画像翻訳と等価である。
埋め込みは任意の等式関係を同時に従うオートエンコーダアーキテクチャを提案する。
いくつかのデータセット上で入力画像の変換版の再レンダリングに成功した結果を示す。
論文 参考訳(メタデータ) (2021-11-25T02:26:38Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z) - Scale Equivariance Improves Siamese Tracking [1.7188280334580197]
シームズトラッカーは、トラッキングをフレーム内のテンプレートと候補領域間の類似度推定に変換する。
非翻訳同変アーキテクチャは、トレーニング中に位置バイアスを引き起こす。
提案するSE-SiamFCは,レシピに従って構築されたSiamFCのスケール・等価な変種である。
論文 参考訳(メタデータ) (2020-07-17T16:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。