Fugu-MT 論文翻訳(概要): Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning

論文の概要: Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning

arxiv url: http://arxiv.org/abs/2308.09455v1
Date: Fri, 18 Aug 2023 10:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 13:26:05.911148
Title: Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning
Title（参考訳）: 視覚言語表現学習のための人工スポーキング階層ネットワーク
Authors: Yeming Chen, Siyu Zhang, Yaoru Sun, Weijian Liang, Haoran Wang
Abstract要約: 最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
参考スコア（独自算出の注目度）: 16.902924543372713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the success of self-supervised learning, multimodal foundation models have rapidly adapted a wide range of downstream tasks driven by vision and language (VL) pretraining. State-of-the-art methods achieve impressive performance by pre-training on large-scale datasets. However, bridging the semantic gap between the two modalities remains a nonnegligible challenge for VL tasks. In this work, we propose an efficient computation framework for multimodal alignment by introducing a novel visual semantic module to further improve the performance of the VL tasks. Specifically, we propose a flexible model, namely Artificial-Spiking Hierarchical Networks (ASH-Nets), which combines the complementary advantages of Artificial neural networks (ANNs) and Spiking neural networks (SNNs) to enrich visual semantic representations. In particular, a visual concrete encoder and a semantic abstract encoder are constructed to learn continuous and discrete latent variables to enhance the flexibility of semantic encoding. Considering the spatio-temporal properties of SNNs modeling, we introduce a contrastive learning method to optimize the inputs of similar samples. This can improve the computational efficiency of the hierarchical network, while the augmentation of hard samples is beneficial to the learning of visual representations. Furthermore, the Spiking to Text Uni-Alignment Learning (STUA) pre-training method is proposed, which only relies on text features to enhance the encoding ability of abstract semantics. We validate the performance on multiple well-established downstream VL tasks. Experiments show that the proposed ASH-Nets achieve competitive results.
Abstract（参考訳）: 自己教師型学習の成功により、マルチモーダル基礎モデルは、視覚と言語(VL)事前学習によって駆動される幅広い下流タスクに急速に適応した。最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。しかしながら、2つのモダリティ間の意味的ギャップを埋めることは、VLタスクにとって不可避の課題である。本稿では,vlタスクの性能をさらに向上させるビジュアルセマンティクスモジュールを導入することにより,マルチモーダルアライメントのための効率的な計算フレームワークを提案する。具体的には,ANN(Artificial-Spiking Hierarchical Networks)とSNN(Spike Neural Network)の相補的な利点を組み合わせた,視覚的意味表現の強化を目的としたフレキシブルモデルを提案する。特に、連続かつ離散的な潜伏変数を学習し、セマンティックエンコーダの柔軟性を高めるために、ビジュアルコンクリートエンコーダとセマンティック抽象エンコーダを構築する。 snnsモデリングの時空間的特性を考慮して,類似サンプルの入力を最適化するコントラスト学習法を提案する。これは階層的ネットワークの計算効率を向上させるが、ハードサンプルの強化は視覚的表現の学習に有益である。さらに,STUA(Spking to Text Uni-Alignment Learning)の事前学習手法を提案する。複数の確立された下流VLタスクの性能を検証する。実験の結果,提案したASH-Netsが競合する結果を得た。

関連論文リスト

Compositional Function Networks: A High-Performance Alternative to Deep Neural Networks with Built-in Interpretability [3.8126669848415666]
本稿では,自然に解釈可能なモデルを構築する新しいフレームワークであるComposeal Function Networks (CFNs)を紹介する。 CFNは多様な構成パターンをサポートし、透明性を維持しながら複雑な機能相互作用を可能にする。シンボル回帰から深層階層ネットワークを用いた画像分類まで,複数の領域にまたがるCFNの汎用性を実証する。
論文参考訳（メタデータ） (2025-07-28T17:18:40Z)
Semi-KAN: KAN Provides an Effective Representation for Semi-Supervised Learning in Medical Image Segmentation [2.717521115234258]
半教師付き医療画像セグメンテーション(SSMIS)は、CNNやViTに代わる有効な代替手段を提供する。 Kolmogorov-Arnold Networks (KAN) にヒントを得て,Semi-KANを提案する。カンはより少ないパラメータで優れた表現学習能力を示す。そこで本研究では,Semi-KANがベースラインネットワークを超越し,KANレイヤの削減と計算コストの削減を図っている。
論文参考訳（メタデータ） (2025-03-19T08:27:41Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳（メタデータ） (2025-01-31T11:55:17Z)
Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳（メタデータ） (2024-12-11T08:03:35Z)
Convergence Analysis for Deep Sparse Coding via Convolutional Neural Networks [7.956678963695681]
本稿では,Deep Sparse Coding(DSC)モデルについて紹介する。スパース特徴を抽出する能力において,CNNの収束率を導出する。スパースコーディングとCNNの強いつながりにインスパイアされた私たちは、ニューラルネットワークがよりスパースな機能を学ぶように促すトレーニング戦略を探求する。
論文参考訳（メタデータ） (2024-08-10T12:43:55Z)
Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文参考訳（メタデータ） (2024-06-14T13:12:07Z)
AMOSL: Adaptive Modality-wise Structure Learning in Multi-view Graph Neural Networks For Enhanced Unified Representation [22.84527318463151]
マルチビューグラフニューラルネットワーク(MVGNN)は、オブジェクト表現の学習に様々なモダリティを活用するのに長けている。既存の手法では、実世界の相違を見渡すモダリティを越えて同じ局所トポロジー構造を仮定する。これらの問題に対処するため,適応型モーダリティ構造学習(AMoSL)を提案する。
論文参考訳（メタデータ） (2024-06-04T14:24:30Z)
Continual Learning: Forget-free Winning Subnetworks for Video Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文参考訳（メタデータ） (2023-12-19T09:11:49Z)
SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文参考訳（メタデータ） (2023-10-10T09:57:17Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文参考訳（メタデータ） (2021-05-17T13:42:09Z)
Adaptive Explainable Neural Networks (AxNNs) [8.949704905866888]
我々は、予測性能とモデル解釈可能性の両目標を達成するために、Adaptive Explainable Neural Networks (AxNN) と呼ばれる新しいフレームワークを開発した。予測性能向上のために,一般化された付加的モデルネットワークと付加的インデックスモデルからなる構造化ニューラルネットワークを構築した。本稿では,AxNNの結果を主効果と高次相互作用効果に分解する方法を示す。
論文参考訳（メタデータ） (2020-04-05T23:40:57Z)
Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。 DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文参考訳（メタデータ） (2020-03-24T09:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。