論文の概要: Design of the topology for contrastive visual-textual alignment
- arxiv url: http://arxiv.org/abs/2209.02127v2
- Date: Mon, 9 Oct 2023 04:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:19:34.535455
- Title: Design of the topology for contrastive visual-textual alignment
- Title(参考訳): コントラスト視覚テキストアライメントのためのトポロジーの設計
- Authors: Zhun Sun
- Abstract要約: 我々は、雑音の多いトレーニングデータにおいて、ソフトマックス温度がコントラスト学習の鍵となるメカニズムであると主張している。
大規模データセット上で事前学習したベースラインCLIPモデルのゼロショット分類性能を平均6.1%改善する。
- 参考スコア(独自算出の注目度): 9.288810883408223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cosine similarity is the common choice for measuring the distance between the
feature representations in contrastive visual-textual alignment learning.
However, empirically a learnable softmax temperature parameter is required when
learning on large-scale noisy training data. In this work, we first discuss the
role of softmax temperature from the embedding space's topological properties.
We argue that the softmax temperature is the key mechanism for contrastive
learning on noisy training data. It acts as a scaling factor of the distance
range (e.g. [-1, 1] for the cosine similarity), and its learned value indicates
the level of noise in the training data. Then, we propose an alternative design
of the topology for the embedding alignment. We make use of multiple class
tokens in the transformer architecture; then map the feature representations
onto an oblique manifold endowed with the negative inner product as the
distance function. With this configuration, we largely improve the zero-shot
classification performance of baseline CLIP models pre-trained on large-scale
datasets by an average of 6.1\%.
- Abstract(参考訳): コサイン類似性は、対照的な視覚・テキストアライメント学習における特徴表現間の距離を測定するための一般的な選択である。
しかし, 大規模学習データでは, 学習可能なソフトマックス温度パラメータが必要となる。
本稿では,まず,埋め込み空間の位相特性からソフトマックス温度の役割について考察する。
我々は、ソフトマックス温度が、ノイズのあるトレーニングデータにおけるコントラスト学習の重要なメカニズムであると主張する。
距離範囲のスケーリング係数(例えば、コサイン類似度[-1, 1])として機能し、その学習値は、トレーニングデータのノイズレベルを示す。
次に,埋め込みアライメントのためのトポロジーの代替設計を提案する。
トランスフォーマーアーキテクチャでは複数のクラストークンを使用し、特徴表現を負の内積を距離関数として付与した斜め多様体にマップする。
この構成により、大規模データセット上で事前トレーニングされたベースラインCLIPモデルのゼロショット分類性能を平均6.1\%改善する。
関連論文リスト
- A Cosmic-Scale Benchmark for Symmetry-Preserving Data Processing [1.96862953848735]
局所的なクラスタリング環境と長距離相関を同時にキャプチャするグラフニューラルネットワークの能力をベンチマークする。
現在のアーキテクチャでは、ドメイン固有のベースラインと同様に、長距離相関から情報を取得することができません。
論文 参考訳(メタデータ) (2024-10-27T16:58:48Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - A Self-Encoder for Learning Nearest Neighbors [5.297261090056809]
自己エンコーダは、データサンプルを埋め込み空間に分散して、互いに線形に分離できるように学習する。
通常の隣人とは異なり、このデータの符号化による予測は、あらゆる機能のスケーリングに不変である。
論文 参考訳(メタデータ) (2023-06-25T14:30:31Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z) - Extracting dispersion curves from ambient noise correlations using deep
learning [1.0237120900821557]
本研究では,表面波の分散曲線の位相を分類する機械学習手法を提案する。
受信機のアレイで観測された表面の標準FTAN解析を画像に変換する。
我々は、教師付き学習目標を備えた畳み込みニューラルネットワーク(U-net)アーキテクチャを使用し、伝達学習を取り入れる。
論文 参考訳(メタデータ) (2020-02-05T23:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。