Fugu-MT 論文翻訳(概要): PSVMA+: Exploring Multi-granularity Semantic-visual Adaption for Generalized Zero-shot Learning

論文の概要: PSVMA+: Exploring Multi-granularity Semantic-visual Adaption for Generalized Zero-shot Learning

arxiv url: http://arxiv.org/abs/2410.11560v1
Date: Tue, 15 Oct 2024 12:49:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.782433
Title: PSVMA+: Exploring Multi-granularity Semantic-visual Adaption for Generalized Zero-shot Learning
Title（参考訳）: PSVMA+:一般化ゼロショット学習のための多粒度セマンティック視覚適応の探索
Authors: Man Liu, Huihui Bai, Feng Li, Chunjie Zhang, Yunchao Wei, Meng Wang, Tat-Seng Chua, Yao Zhao,
Abstract要約: 一般化ゼロショット学習(GZSL)は、目に見えない領域の知識を用いて、見えないものを識別する試みである。 GZSLは、属性の多様性とインスタンスの多様性により、視覚的セマンティックな対応が不十分である。本稿では,不整合の解消に十分な視覚要素を収集できる多粒性プログレッシブ・セマンティック・視覚適応ネットワークを提案する。
参考スコア（独自算出の注目度）: 116.33775552866476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalized zero-shot learning (GZSL) endeavors to identify the unseen categories using knowledge from the seen domain, necessitating the intrinsic interactions between the visual features and attribute semantic features. However, GZSL suffers from insufficient visual-semantic correspondences due to the attribute diversity and instance diversity. Attribute diversity refers to varying semantic granularity in attribute descriptions, ranging from low-level (specific, directly observable) to high-level (abstract, highly generic) characteristics. This diversity challenges the collection of adequate visual cues for attributes under a uni-granularity. Additionally, diverse visual instances corresponding to the same sharing attributes introduce semantic ambiguity, leading to vague visual patterns. To tackle these problems, we propose a multi-granularity progressive semantic-visual mutual adaption (PSVMA+) network, where sufficient visual elements across granularity levels can be gathered to remedy the granularity inconsistency. PSVMA+ explores semantic-visual interactions at different granularity levels, enabling awareness of multi-granularity in both visual and semantic elements. At each granularity level, the dual semantic-visual transformer module (DSVTM) recasts the sharing attributes into instance-centric attributes and aggregates the semantic-related visual regions, thereby learning unambiguous visual features to accommodate various instances. Given the diverse contributions of different granularities, PSVMA+ employs selective cross-granularity learning to leverage knowledge from reliable granularities and adaptively fuses multi-granularity features for comprehensive representations. Experimental results demonstrate that PSVMA+ consistently outperforms state-of-the-art methods.
Abstract（参考訳）: 一般化ゼロショット学習 (GZSL) は、視覚的特徴と属性意味的特徴の間の本質的な相互作用を必要とする。しかし、GZSLは属性の多様性とインスタンスの多様性のため、視覚的セマンティックな対応が不十分である。属性の多様性は属性記述における意味的な粒度の変化を指し、低レベル(特定の、直接観測可能)から高レベル(抽象的で、非常に汎用的な)特徴まで様々である。この多様性は、ユニ粒度の属性に対する適切な視覚的手がかりの収集に挑戦する。さらに、同じ共有属性に対応する多様な視覚的インスタンスは、意味的曖昧さを導入し、曖昧な視覚的パターンをもたらす。これらの問題に対処するために、粒度レベルにまたがる十分な視覚要素を収集し、粒度不整合を解消する多粒度プログレッシブ・セマンティック・ビジュアル・相互適応(PSVMA+)ネットワークを提案する。 PSVMA+は、異なる粒度のセマンティック・視覚的相互作用を探索し、視覚的要素と意味的要素の両方において多粒度を認識できるようにする。各粒度レベルでは、デュアルセマンティック・ビジュアル・トランスフォーマー・モジュール(DSVTM)は、共有属性をインスタンス中心の属性に再キャストし、セマンティック関連視覚領域を集約する。異なる粒度の多様な貢献を考えると、PSVMA+は、信頼できる粒度の知識を活用するために選択的な粒度学習を採用し、包括的表現のために多粒度特徴を適応的に融合させる。実験の結果,PSVMA+は最先端の手法より一貫して優れていた。

関連論文リスト

XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文参考訳（メタデータ） (2025-03-10T08:58:05Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文参考訳（メタデータ） (2024-07-23T07:31:42Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。 AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文参考訳（メタデータ） (2024-05-06T16:31:19Z)
High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。 HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文参考訳（メタデータ） (2024-04-07T13:17:47Z)
Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文参考訳（メタデータ） (2023-12-20T12:46:30Z)
Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。 DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文参考訳（メタデータ） (2023-03-27T15:21:43Z)
Deep ViT Features as Dense Visual Descriptors [12.83702462166513]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。これらの記述子は、コセグメンテーション、部分のコセグメンテーション、および対応を含む様々な応用を促進する。
論文参考訳（メタデータ） (2021-12-10T20:15:03Z)
Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文参考訳（メタデータ） (2021-01-20T05:46:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。