論文の概要: Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2407.18854v1
- Date: Fri, 26 Jul 2024 16:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:49:41.610927
- Title: Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment
- Title(参考訳): 拡張モードアライメントのための拡散モデルによる視覚的特徴空間と意味的特徴空間の統一
- Authors: Yuze Zheng, Zixuan Li, Xiangxian Li, Jinxing Liu, Yuqing Wang, Xiangxu Meng, Lei Meng,
- Abstract要約: 本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
- 参考スコア(独自算出の注目度): 20.902935570581207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image classification models often demonstrate unstable performance in real-world applications due to variations in image information, driven by differing visual perspectives of subject objects and lighting discrepancies. To mitigate these challenges, existing studies commonly incorporate additional modal information matching the visual data to regularize the model's learning process, enabling the extraction of high-quality visual features from complex image regions. Specifically, in the realm of multimodal learning, cross-modal alignment is recognized as an effective strategy, harmonizing different modal information by learning a domain-consistent latent feature space for visual and semantic features. However, this approach may face limitations due to the heterogeneity between multimodal information, such as differences in feature distribution and structure. To address this issue, we introduce a Multimodal Alignment and Reconstruction Network (MARNet), designed to enhance the model's resistance to visual noise. Importantly, MARNet includes a cross-modal diffusion reconstruction module for smoothly and stably blending information across different domains. Experiments conducted on two benchmark datasets, Vireo-Food172 and Ingredient-101, demonstrate that MARNet effectively improves the quality of image information extracted by the model. It is a plug-and-play framework that can be rapidly integrated into various image classification frameworks, boosting model performance.
- Abstract(参考訳): 画像分類モデルは、被写体と照明の相違点の異なる視覚的視点によって駆動される画像情報の変化により、実世界のアプリケーションで不安定な性能を示すことが多い。
これらの課題を軽減するため、既存の研究では、視覚データにマッチする追加のモーダル情報を加えてモデルの学習プロセスを規則化し、複雑な画像領域から高品質な視覚特徴を抽出することができる。
具体的には、マルチモーダル学習の領域において、視覚的・意味的特徴のためのドメイン一貫性のある潜在特徴空間を学習することにより、異なるモーダル情報を調和させることにより、クロスモーダルアライメントを効果的な戦略として認識する。
しかし、このアプローチは、特徴分布と構造の違いなど、マルチモーダル情報の不均一性によって制限を受ける可能性がある。
この問題に対処するため,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入する。
重要なことに、MARNetは、異なるドメイン間で情報をスムーズに安定的にブレンドするクロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
これはプラグイン・アンド・プレイのフレームワークであり、様々な画像分類フレームワークに迅速に統合され、モデルのパフォーマンスが向上する。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - MMFL-Net: Multi-scale and Multi-granularity Feature Learning for
Cross-domain Fashion Retrieval [3.7045939497992917]
クロスドメインファッション検索は、C2S(Consumer-to-Shop)ドメインの幅広い相違により難しい課題である。
衣料品画像のグローバル・ローカル・アグリゲーション特徴表現を共同で学習できる新しいマルチスケール・マルチグラニュラリティ特徴学習ネットワーク(MMFL-Net)を提案する。
提案モデルでは,マルチタスク属性認識と分類モジュールを多ラベル意味属性および製品IDラベルと組み合わせた。
論文 参考訳(メタデータ) (2022-10-27T02:25:52Z) - Explicit and implicit models in infrared and visible image fusion [5.842112272932475]
本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。
21個の試験セットの比較実験を10種類のモデルで行った。
定性的かつ定量的な結果は、暗黙的なモデルが画像の特徴を学習するより包括的な能力を持っていることを示している。
論文 参考訳(メタデータ) (2022-06-20T06:05:09Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。