論文の概要: Semantic-Space-Intervened Diffusive Alignment for Visual Classification
- arxiv url: http://arxiv.org/abs/2505.05721v1
- Date: Fri, 09 May 2025 01:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.123167
- Title: Semantic-Space-Intervened Diffusive Alignment for Visual Classification
- Title(参考訳): 視覚分類のための意味空間交叉拡散アライメント
- Authors: Zixuan Li, Lei Meng, Guoqing Chao, Wei Wu, Xiaoshuo Yan, Yimeng Yang, Zhuang Qi, Xiangxu Meng,
- Abstract要約: クロスモーダルアライメントは視覚的分類を改善する効果的なアプローチである。
本稿では,セマンティック空間間微分アライメント法(SeDA)を提案する。
実験結果から,SeDAはクロスモーダルな特徴アライメントを実現し,既存手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 11.621655970763467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment is an effective approach to improving visual classification. Existing studies typically enforce a one-step mapping that uses deep neural networks to project the visual features to mimic the distribution of textual features. However, they typically face difficulties in finding such a projection due to the two modalities in both the distribution of class-wise samples and the range of their feature values. To address this issue, this paper proposes a novel Semantic-Space-Intervened Diffusive Alignment method, termed SeDA, models a semantic space as a bridge in the visual-to-textual projection, considering both types of features share the same class-level information in classification. More importantly, a bi-stage diffusion framework is developed to enable the progressive alignment between the two modalities. Specifically, SeDA first employs a Diffusion-Controlled Semantic Learner to model the semantic features space of visual features by constraining the interactive features of the diffusion model and the category centers of visual features. In the later stage of SeDA, the Diffusion-Controlled Semantic Translator focuses on learning the distribution of textual features from the semantic space. Meanwhile, the Progressive Feature Interaction Network introduces stepwise feature interactions at each alignment step, progressively integrating textual information into mapped features. Experimental results show that SeDA achieves stronger cross-modal feature alignment, leading to superior performance over existing methods across multiple scenarios.
- Abstract(参考訳): クロスモーダルアライメントは視覚的分類を改善する効果的なアプローチである。
既存の研究では、ディープニューラルネットワークを使用して視覚的特徴を投影し、テキスト的特徴の分布を模倣するワンステップマッピングが実施されている。
しかし、クラスワイドサンプルの分布と特徴値の範囲の双方において、2つのモダリティがあるため、このような射影を見つけるのが難しいのが普通である。
本稿では,意味空間を視覚とテクスチャの投影のブリッジとしてモデル化するセマンティック・スペース・インターベンショナル・ディフューシブ・アライメント法を提案する。
さらに、この2つのモード間の進行的なアライメントを可能にするために、二段階拡散フレームワークが開発されている。
具体的には、まず拡散制御されたセマンティック学習器を用いて、拡散モデルの対話的特徴と視覚的特徴のカテゴリ中心を制約することにより、視覚的特徴のセマンティック特徴空間をモデル化する。
SeDAの後半では、Diffusion-Controlled Semantic Translatorは意味空間からテキスト特徴の分布を学習することに焦点を当てている。
一方、プログレッシブ・フィーチャー・インタラクション・ネットワーク(Progressive Feature Interaction Network)は、各アライメントステップで段階的に機能インタラクションを導入し、テキスト情報をマップされた機能に徐々に統合する。
実験の結果,SeDAはクロスモーダルな機能アライメントを実現し,複数のシナリオにまたがる既存メソッドよりも優れた性能を実現していることがわかった。
関連論文リスト
- Dynamic Dictionary Learning for Remote Sensing Image Segmentation [22.457901431083645]
この研究は動的辞書学習フレームワークを導入し、反復的な洗練を通じてクラスIDの埋め込みを明示的にモデル化する。
その中核となる貢献は、クラス認識のセマンティック埋め込みが徐々に更新される新しい辞書構築メカニズムにある。
粗いデータセットときめ細かいデータセットの両方にわたる実験は、最先端の手法よりも一貫した改善を示している。
論文 参考訳(メタデータ) (2025-03-09T16:25:16Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - A Novel Perspective to Zero-shot Learning: Towards an Alignment of
Manifold Structures via Semantic Feature Expansion [17.48923061278128]
ゼロショット学習の一般的な実践は、視覚的特徴空間と意味的特徴空間の間の投影をラベル付きクラス例で訓練することである。
このようなパラダイムの下では、既存のほとんどのメソッドは容易にドメインシフトの問題に悩まされ、ゼロショット認識の性能が低下する。
本稿では, 意味的特徴拡張による多様体構造のアライメントを考慮した AMS-SFE という新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T14:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。