論文の概要: Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning
- arxiv url: http://arxiv.org/abs/2308.09455v1
- Date: Fri, 18 Aug 2023 10:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:26:05.911148
- Title: Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning
- Title(参考訳): 視覚言語表現学習のための人工スポーキング階層ネットワーク
- Authors: Yeming Chen, Siyu Zhang, Yaoru Sun, Weijian Liang, Haoran Wang
- Abstract要約: 最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
- 参考スコア(独自算出の注目度): 16.902924543372713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of self-supervised learning, multimodal foundation models
have rapidly adapted a wide range of downstream tasks driven by vision and
language (VL) pretraining. State-of-the-art methods achieve impressive
performance by pre-training on large-scale datasets. However, bridging the
semantic gap between the two modalities remains a nonnegligible challenge for
VL tasks. In this work, we propose an efficient computation framework for
multimodal alignment by introducing a novel visual semantic module to further
improve the performance of the VL tasks. Specifically, we propose a flexible
model, namely Artificial-Spiking Hierarchical Networks (ASH-Nets), which
combines the complementary advantages of Artificial neural networks (ANNs) and
Spiking neural networks (SNNs) to enrich visual semantic representations. In
particular, a visual concrete encoder and a semantic abstract encoder are
constructed to learn continuous and discrete latent variables to enhance the
flexibility of semantic encoding. Considering the spatio-temporal properties of
SNNs modeling, we introduce a contrastive learning method to optimize the
inputs of similar samples. This can improve the computational efficiency of the
hierarchical network, while the augmentation of hard samples is beneficial to
the learning of visual representations. Furthermore, the Spiking to Text
Uni-Alignment Learning (STUA) pre-training method is proposed, which only
relies on text features to enhance the encoding ability of abstract semantics.
We validate the performance on multiple well-established downstream VL tasks.
Experiments show that the proposed ASH-Nets achieve competitive results.
- Abstract(参考訳): 自己教師型学習の成功により、マルチモーダル基礎モデルは、視覚と言語(VL)事前学習によって駆動される幅広い下流タスクに急速に適応した。
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
しかしながら、2つのモダリティ間の意味的ギャップを埋めることは、VLタスクにとって不可避の課題である。
本稿では,vlタスクの性能をさらに向上させるビジュアルセマンティクスモジュールを導入することにより,マルチモーダルアライメントのための効率的な計算フレームワークを提案する。
具体的には,ANN(Artificial-Spiking Hierarchical Networks)とSNN(Spike Neural Network)の相補的な利点を組み合わせた,視覚的意味表現の強化を目的としたフレキシブルモデルを提案する。
特に、連続かつ離散的な潜伏変数を学習し、セマンティックエンコーダの柔軟性を高めるために、ビジュアルコンクリートエンコーダとセマンティック抽象エンコーダを構築する。
snnsモデリングの時空間的特性を考慮して,類似サンプルの入力を最適化するコントラスト学習法を提案する。
これは階層的ネットワークの計算効率を向上させるが、ハードサンプルの強化は視覚的表現の学習に有益である。
さらに,STUA(Spking to Text Uni-Alignment Learning)の事前学習手法を提案する。
複数の確立された下流VLタスクの性能を検証する。
実験の結果,提案したASH-Netsが競合する結果を得た。
関連論文リスト
- Improving vision-language alignment with graph spiking hybrid Networks [6.707524980629404]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。
我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
マルチモーダル理解と生成のための離散言語を通して、統一視覚言語モデルセマンティックであるMUSE-VLを紹介する。
提案手法は,様々な視覚言語ベンチマークにおいて,従来の最先端モデルを大幅に上回り,専用の理解モデルよりも優れた性能を実現している。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - Convergence Analysis for Deep Sparse Coding via Convolutional Neural Networks [7.956678963695681]
スパースコーディングとディープラーニングの交差点を探索し,特徴抽出能力の理解を深める。
我々は、畳み込みニューラルネットワーク(CNN)のスパース特徴抽出能力の収束率を導出する。
スパースコーディングとCNNの強いつながりにインスパイアされた私たちは、ニューラルネットワークがよりスパースな機能を学ぶように促すトレーニング戦略を探求する。
論文 参考訳(メタデータ) (2024-08-10T12:43:55Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - AMOSL: Adaptive Modality-wise Structure Learning in Multi-view Graph Neural Networks For Enhanced Unified Representation [22.84527318463151]
マルチビューグラフニューラルネットワーク(MVGNN)は、オブジェクト表現の学習に様々なモダリティを活用するのに長けている。
既存の手法では、実世界の相違を見渡すモダリティを越えて同じ局所トポロジー構造を仮定する。
これらの問題に対処するため,適応型モーダリティ構造学習(AMoSL)を提案する。
論文 参考訳(メタデータ) (2024-06-04T14:24:30Z) - Continual Learning: Forget-free Winning Subnetworks for Video Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。
タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。
ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文 参考訳(メタデータ) (2023-12-19T09:11:49Z) - SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:57:17Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。