論文の概要: Improving vision-language alignment with graph spiking hybrid Networks
- arxiv url: http://arxiv.org/abs/2501.19069v1
- Date: Fri, 31 Jan 2025 11:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:17.925852
- Title: Improving vision-language alignment with graph spiking hybrid Networks
- Title(参考訳): グラフスパイクハイブリッドネットワークによる視覚言語アライメントの改善
- Authors: Siyu Zhang, Heming Zheng, Yiming Wu, Yeming Chen,
- Abstract要約: 本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
- 参考スコア(独自算出の注目度): 6.707524980629404
- License:
- Abstract: To bridge the semantic gap between vision and language (VL), it is necessary to develop a good alignment strategy, which includes handling semantic diversity, abstract representation of visual information, and generalization ability of models. Recent works use detector-based bounding boxes or patches with regular partitions to represent visual semantics. While current paradigms have made strides, they are still insufficient for fully capturing the nuanced contextual relations among various objects. This paper proposes a comprehensive visual semantic representation module, necessitating the utilization of panoptic segmentation to generate coherent fine-grained semantic features. Furthermore, we propose a novel Graph Spiking Hybrid Network (GSHN) that integrates the complementary advantages of Spiking Neural Networks (SNNs) and Graph Attention Networks (GATs) to encode visual semantic information. Intriguingly, the model not only encodes the discrete and continuous latent variables of instances but also adeptly captures both local and global contextual features, thereby significantly enhancing the richness and diversity of semantic representations. Leveraging the spatiotemporal properties inherent in SNNs, we employ contrastive learning (CL) to enhance the similarity-based representation of embeddings. This strategy alleviates the computational overhead of the model and enriches meaningful visual representations by constructing positive and negative sample pairs. We design an innovative pre-training method, Spiked Text Learning (STL), which uses text features to improve the encoding ability of discrete semantics. Experiments show that the proposed GSHN exhibits promising results on multiple VL downstream tasks.
- Abstract(参考訳): 視覚と言語(VL)のセマンティックギャップを埋めるためには、セマンティック多様性の扱い、視覚情報の抽象表現、モデルの一般化能力を含む優れたアライメント戦略を開発する必要がある。
近年の研究では、視覚的意味論を表現するために、検出器ベースのバウンディングボックスや定期的なパーティションを持つパッチを使用している。
現在のパラダイムは進歩してきたが、様々な対象間の微妙な文脈関係を完全に把握するには依然として不十分である。
本稿では,コヒーレントな細粒度セマンティック特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティック・セマンティクスの活用を必要とする包括的視覚意味表現モジュールを提案する。
さらに,視覚的意味情報をエンコードするために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
興味深いことに、このモデルはインスタンスの離散的かつ連続的な潜伏変数を符号化するだけでなく、局所的およびグローバルな文脈的特徴を包含し、セマンティック表現の豊かさと多様性を著しく向上させる。
SNNに固有の時空間特性を活用して、類似性に基づく埋め込み表現を強化するために、コントラスト学習(CL)を用いる。
この戦略により、モデルの計算オーバーヘッドが軽減され、正と負のサンプルペアを構築することで意味のある視覚表現が強化される。
本研究では、テキスト機能を用いて、個別意味論の符号化能力を向上させる革新的な事前学習手法Spked Text Learning(STL)を設計する。
実験により、提案したGSHNは複数のVL下流タスクに対して有望な結果を示すことが示された。
関連論文リスト
- Verbalized Graph Representation Learning: A Fully Interpretable Graph Model Based on Large Language Models Throughout the Entire Process [8.820909397907274]
完全に解釈可能な言語グラフ表現学習法(VGRL)を提案する。
従来のグラフ機械学習モデルとは対照的に、VGRLはこのパラメータ空間をテキスト記述に制約する。
VGRLの有効性を実証的に評価するために,いくつかの研究を行った。
論文 参考訳(メタデータ) (2024-10-02T12:07:47Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-18T10:40:25Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Graph-based Visual-Semantic Entanglement Network for Zero-shot Image
Recognition [17.622748458955595]
視覚特徴のグラフモデリングを行うためのグラフベースビジュアルセマンティックエンタングルメントネットワークを提案する。
提案手法は,複数の代表的ZSLデータセットに対する最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-06-08T14:54:08Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。