Fugu-MT 論文翻訳(概要): Improving vision-language alignment with graph spiking hybrid Networks

論文の概要: Improving vision-language alignment with graph spiking hybrid Networks

arxiv url: http://arxiv.org/abs/2501.19069v1
Date: Fri, 31 Jan 2025 11:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 22:46:13.001208
Title: Improving vision-language alignment with graph spiking hybrid Networks
Title（参考訳）: グラフスパイクハイブリッドネットワークによる視覚言語アライメントの改善
Authors: Siyu Zhang, Heming Zheng, Yiming Wu, Yeming Chen,
Abstract要約: 本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
参考スコア（独自算出の注目度）: 6.707524980629404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To bridge the semantic gap between vision and language (VL), it is necessary to develop a good alignment strategy, which includes handling semantic diversity, abstract representation of visual information, and generalization ability of models. Recent works use detector-based bounding boxes or patches with regular partitions to represent visual semantics. While current paradigms have made strides, they are still insufficient for fully capturing the nuanced contextual relations among various objects. This paper proposes a comprehensive visual semantic representation module, necessitating the utilization of panoptic segmentation to generate coherent fine-grained semantic features. Furthermore, we propose a novel Graph Spiking Hybrid Network (GSHN) that integrates the complementary advantages of Spiking Neural Networks (SNNs) and Graph Attention Networks (GATs) to encode visual semantic information. Intriguingly, the model not only encodes the discrete and continuous latent variables of instances but also adeptly captures both local and global contextual features, thereby significantly enhancing the richness and diversity of semantic representations. Leveraging the spatiotemporal properties inherent in SNNs, we employ contrastive learning (CL) to enhance the similarity-based representation of embeddings. This strategy alleviates the computational overhead of the model and enriches meaningful visual representations by constructing positive and negative sample pairs. We design an innovative pre-training method, Spiked Text Learning (STL), which uses text features to improve the encoding ability of discrete semantics. Experiments show that the proposed GSHN exhibits promising results on multiple VL downstream tasks.
Abstract（参考訳）: 視覚と言語(VL)のセマンティックギャップを埋めるためには、セマンティック多様性の扱い、視覚情報の抽象表現、モデルの一般化能力を含む優れたアライメント戦略を開発する必要がある。近年の研究では、視覚的意味論を表現するために、検出器ベースのバウンディングボックスや定期的なパーティションを持つパッチを使用している。現在のパラダイムは進歩してきたが、様々な対象間の微妙な文脈関係を完全に把握するには依然として不十分である。本稿では,コヒーレントな細粒度セマンティック特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティック・セマンティクスの活用を必要とする包括的視覚意味表現モジュールを提案する。さらに,視覚的意味情報をエンコードするために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。興味深いことに、このモデルはインスタンスの離散的かつ連続的な潜伏変数を符号化するだけでなく、局所的およびグローバルな文脈的特徴を包含し、セマンティック表現の豊かさと多様性を著しく向上させる。 SNNに固有の時空間特性を活用して、類似性に基づく埋め込み表現を強化するために、コントラスト学習(CL)を用いる。この戦略により、モデルの計算オーバーヘッドが軽減され、正と負のサンプルペアを構築することで意味のある視覚表現が強化される。本研究では、テキスト機能を用いて、個別意味論の符号化能力を向上させる革新的な事前学習手法Spked Text Learning(STL)を設計する。実験により、提案したGSHNは複数のVL下流タスクに対して有望な結果を示すことが示された。

関連論文リスト

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文参考訳（メタデータ） (2025-09-26T07:11:55Z)
Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-08-24T15:45:22Z)
Vision Graph Prompting via Semantic Low-Rank Decomposition [10.223578525761617]
Vision GNN (ViG) は、画像をグラフ構造として表現することで、優れた性能を示す。下流タスクにViGを効率的に適応させるためには、視覚的プロンプトのようなパラメータ効率の良い微調整技術がますます不可欠になっている。視覚グラフ構造に適した新しいフレームワークであるビジョングラフプロンプティング(VGP)を提案する。
論文参考訳（メタデータ） (2025-05-07T04:29:29Z)
Deep Semantic Graph Learning via LLM based Node Enhancement [5.312946761836463]
大規模言語モデル(LLM)は、テキストセマンティクスを理解する上で優れた能力を示している。本稿では,グラフトランスフォーマーアーキテクチャとLLM拡張ノード機能を組み合わせた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-11T21:55:46Z)
Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:43:21Z)
Verbalized Graph Representation Learning: A Fully Interpretable Graph Model Based on Large Language Models Throughout the Entire Process [8.820909397907274]
完全に解釈可能な言語グラフ表現学習法(VGRL)を提案する。従来のグラフ機械学習モデルとは対照的に、VGRLはこのパラメータ空間をテキスト記述に制約する。 VGRLの有効性を実証的に評価するために,いくつかの研究を行った。
論文参考訳（メタデータ） (2024-10-02T12:07:47Z)
Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文参考訳（メタデータ） (2023-08-18T10:40:25Z)
Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。 DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文参考訳（メタデータ） (2023-03-27T15:21:43Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文参考訳（メタデータ） (2020-09-14T02:52:45Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。