論文の概要: Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning
- arxiv url: http://arxiv.org/abs/2308.09455v1
- Date: Fri, 18 Aug 2023 10:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:26:05.911148
- Title: Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning
- Title(参考訳): 視覚言語表現学習のための人工スポーキング階層ネットワーク
- Authors: Yeming Chen, Siyu Zhang, Yaoru Sun, Weijian Liang, Haoran Wang
- Abstract要約: 最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
- 参考スコア(独自算出の注目度): 16.902924543372713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of self-supervised learning, multimodal foundation models
have rapidly adapted a wide range of downstream tasks driven by vision and
language (VL) pretraining. State-of-the-art methods achieve impressive
performance by pre-training on large-scale datasets. However, bridging the
semantic gap between the two modalities remains a nonnegligible challenge for
VL tasks. In this work, we propose an efficient computation framework for
multimodal alignment by introducing a novel visual semantic module to further
improve the performance of the VL tasks. Specifically, we propose a flexible
model, namely Artificial-Spiking Hierarchical Networks (ASH-Nets), which
combines the complementary advantages of Artificial neural networks (ANNs) and
Spiking neural networks (SNNs) to enrich visual semantic representations. In
particular, a visual concrete encoder and a semantic abstract encoder are
constructed to learn continuous and discrete latent variables to enhance the
flexibility of semantic encoding. Considering the spatio-temporal properties of
SNNs modeling, we introduce a contrastive learning method to optimize the
inputs of similar samples. This can improve the computational efficiency of the
hierarchical network, while the augmentation of hard samples is beneficial to
the learning of visual representations. Furthermore, the Spiking to Text
Uni-Alignment Learning (STUA) pre-training method is proposed, which only
relies on text features to enhance the encoding ability of abstract semantics.
We validate the performance on multiple well-established downstream VL tasks.
Experiments show that the proposed ASH-Nets achieve competitive results.
- Abstract(参考訳): 自己教師型学習の成功により、マルチモーダル基礎モデルは、視覚と言語(VL)事前学習によって駆動される幅広い下流タスクに急速に適応した。
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
しかしながら、2つのモダリティ間の意味的ギャップを埋めることは、VLタスクにとって不可避の課題である。
本稿では,vlタスクの性能をさらに向上させるビジュアルセマンティクスモジュールを導入することにより,マルチモーダルアライメントのための効率的な計算フレームワークを提案する。
具体的には,ANN(Artificial-Spiking Hierarchical Networks)とSNN(Spike Neural Network)の相補的な利点を組み合わせた,視覚的意味表現の強化を目的としたフレキシブルモデルを提案する。
特に、連続かつ離散的な潜伏変数を学習し、セマンティックエンコーダの柔軟性を高めるために、ビジュアルコンクリートエンコーダとセマンティック抽象エンコーダを構築する。
snnsモデリングの時空間的特性を考慮して,類似サンプルの入力を最適化するコントラスト学習法を提案する。
これは階層的ネットワークの計算効率を向上させるが、ハードサンプルの強化は視覚的表現の学習に有益である。
さらに,STUA(Spking to Text Uni-Alignment Learning)の事前学習手法を提案する。
複数の確立された下流VLタスクの性能を検証する。
実験の結果,提案したASH-Netsが競合する結果を得た。
関連論文リスト
- Convergence Analysis for Deep Sparse Coding via Convolutional Neural Networks [7.956678963695681]
本稿では,Deep Sparse Coding(DSC)モデルについて紹介する。
スパース特徴を抽出する能力において,CNNの収束率を導出する。
スパースコーディングとCNNの強いつながりにインスパイアされた私たちは、ニューラルネットワークがよりスパースな機能を学ぶように促すトレーニング戦略を探求する。
論文 参考訳(メタデータ) (2024-08-10T12:43:55Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - AMOSL: Adaptive Modality-wise Structure Learning in Multi-view Graph Neural Networks For Enhanced Unified Representation [22.84527318463151]
マルチビューグラフニューラルネットワーク(MVGNN)は、オブジェクト表現の学習に様々なモダリティを活用するのに長けている。
既存の手法では、実世界の相違を見渡すモダリティを越えて同じ局所トポロジー構造を仮定する。
これらの問題に対処するため,適応型モーダリティ構造学習(AMoSL)を提案する。
論文 参考訳(メタデータ) (2024-06-04T14:24:30Z) - Continual Learning: Forget-free Winning Subnetworks for Video Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。
タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。
ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文 参考訳(メタデータ) (2023-12-19T09:11:49Z) - SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:57:17Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Adaptive Explainable Neural Networks (AxNNs) [8.949704905866888]
我々は、予測性能とモデル解釈可能性の両目標を達成するために、Adaptive Explainable Neural Networks (AxNN) と呼ばれる新しいフレームワークを開発した。
予測性能向上のために,一般化された付加的モデルネットワークと付加的インデックスモデルからなる構造化ニューラルネットワークを構築した。
本稿では,AxNNの結果を主効果と高次相互作用効果に分解する方法を示す。
論文 参考訳(メタデータ) (2020-04-05T23:40:57Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。