論文の概要: Design of the topology for contrastive visual-textual alignment
- arxiv url: http://arxiv.org/abs/2209.02127v1
- Date: Mon, 5 Sep 2022 20:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:39:22.778591
- Title: Design of the topology for contrastive visual-textual alignment
- Title(参考訳): コントラスト視覚テキストアライメントのためのトポロジーの設計
- Authors: Zhun Sun
- Abstract要約: 弱関連画像テキストペアの事前学習は、モーダルモデル間のセマンティックアライメントの学習において大きな力を発揮する。
画像とテキストのペアの特徴表現間の距離を測定するための一般的な選択は、コサインの類似性である。
トレーニングコードの2行だけを変更することで,ベースライン性能を大きなマージンで向上できることを示す。
- 参考スコア(独自算出の注目度): 9.941078932950248
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-training weakly related image-text pairs in the contrastive style shows
great power in learning semantic aligning cross-modal models. The common choice
to measure the distance between the feature representations of the image-text
pairs is the cosine similarity, which can be considered as the negative inner
product of features embedded on a sphere mathematically. While such topology
benefits from the low computational resources consumption and a properly
defined uniformity, typically, there are two major drawbacks when applied.
First, it is vulnerable to the semantic ambiguity phenomenon resulting from the
noise in the weakly-related image-text pairs. Second, the learning progress is
unstable and fragile at the beginning. Although, in the practice of former
studies, a learnable softmax temperature parameter and a long warmup scheme are
employed to meliorate the training progress, still there lacks an in-depth
analysis of these problems. In this work, we discuss the desired properties of
the topology and its endowed distance function for the embedding vectors of
feature representations from the view of optimization. We then propose a rather
simple solution to improve the aforementioned problem. That is, we map the
feature representations onto the oblique manifold endowed with the negative
inner product as the distance function. In the experimental analysis, we show
that we can improve the baseline performance by a large margin (e.g. 4% in the
zero-shot image to text retrieval task) by changing only two lines of the
training codes.
- Abstract(参考訳): 対照的なスタイルの弱関連画像テキストペアの事前学習は、モーダルモデル間のセマンティックアライメントの学習において大きな力を発揮する。
イメージテキスト対の特徴表現間の距離を測定する一般的な選択はコサイン類似性であり、これは数学的に球面に埋め込まれた特徴の負の内積と見なすことができる。
このようなトポロジーは、低い計算資源の消費と適切に定義された一様性から恩恵を受けるが、適用する際の大きな欠点は2つある。
第1に、弱関連画像テキスト対のノイズに起因する意味曖昧性現象に対して脆弱である。
第二に、学習の進歩は最初は不安定で脆弱です。
前者の研究では、学習可能なソフトマックス温度パラメータと長いウォームアップスキームを使用してトレーニングの進捗を改善するが、これらの問題を深く分析することができない。
本研究では,最適化の観点から,特徴表現の埋め込みベクトルに対するトポロジーと固有距離関数の所望の性質について考察する。
次に、上記の問題を改善するための、かなり単純な解決策を提案する。
すなわち、その特徴表現を、負の内積を距離函数として持つ斜め多様体に写像する。
実験分析では、トレーニングコードの2行のみを変更することで、ベースライン性能を大きなマージン(例えばゼロショット画像からテキスト検索タスクへの4%)で向上できることを示した。
関連論文リスト
- A Cosmic-Scale Benchmark for Symmetry-Preserving Data Processing [1.96862953848735]
局所的なクラスタリング環境と長距離相関を同時にキャプチャするグラフニューラルネットワークの能力をベンチマークする。
現在のアーキテクチャでは、ドメイン固有のベースラインと同様に、長距離相関から情報を取得することができません。
論文 参考訳(メタデータ) (2024-10-27T16:58:48Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - A Self-Encoder for Learning Nearest Neighbors [5.297261090056809]
自己エンコーダは、データサンプルを埋め込み空間に分散して、互いに線形に分離できるように学習する。
通常の隣人とは異なり、このデータの符号化による予測は、あらゆる機能のスケーリングに不変である。
論文 参考訳(メタデータ) (2023-06-25T14:30:31Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Conditional Mutual information-based Contrastive Loss for Financial Time
Series Forecasting [12.0855096102517]
金融時系列予測のための表現学習フレームワークを提案する。
本稿では、まず時系列データからコンパクトな表現を学習し、次に学習した表現を用いて、時系列の動きを予測するためのより単純なモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-18T15:24:33Z) - Extracting dispersion curves from ambient noise correlations using deep
learning [1.0237120900821557]
本研究では,表面波の分散曲線の位相を分類する機械学習手法を提案する。
受信機のアレイで観測された表面の標準FTAN解析を画像に変換する。
我々は、教師付き学習目標を備えた畳み込みニューラルネットワーク(U-net)アーキテクチャを使用し、伝達学習を取り入れる。
論文 参考訳(メタデータ) (2020-02-05T23:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。