論文の概要: Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval
- arxiv url: http://arxiv.org/abs/2210.10486v1
- Date: Wed, 19 Oct 2022 11:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:34:58.832597
- Title: Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval
- Title(参考訳): 細粒度スケッチに基づく画像検索のためのクロスモーダル融合蒸留
- Authors: Abhra Chaudhuri, Massimiliano Mancini, Yanbei Chen, Zeynep Akata,
Anjan Dutta
- Abstract要約: 本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
- 参考スコア(独自算出の注目度): 55.21569389894215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation learning for sketch-based image retrieval has mostly been
tackled by learning embeddings that discard modality-specific information. As
instances from different modalities can often provide complementary information
describing the underlying concept, we propose a cross-attention framework for
Vision Transformers (XModalViT) that fuses modality-specific information
instead of discarding them. Our framework first maps paired datapoints from the
individual photo and sketch modalities to fused representations that unify
information from both modalities. We then decouple the input space of the
aforementioned modality fusion network into independent encoders of the
individual modalities via contrastive and relational cross-modal knowledge
distillation. Such encoders can then be applied to downstream tasks like
cross-modal retrieval. We demonstrate the expressive capacity of the learned
representations by performing a wide range of experiments and achieving
state-of-the-art results on three fine-grained sketch-based image retrieval
benchmarks: Shoe-V2, Chair-V2 and Sketchy. Implementation is available at
https://github.com/abhrac/xmodal-vit.
- Abstract(参考訳): スケッチに基づく画像検索のための表現学習は、主にモダリティ固有の情報を捨てる埋め込みの学習に取り組んできた。
異なるモダリティのインスタンスは、基礎となる概念を記述する補完的な情報を提供することが多いため、モダリティ固有の情報を捨てる代わりに融合するビジョントランスフォーマー(XModalViT)のためのクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
このようなエンコーダは、クロスモーダル検索のような下流タスクに適用できる。
本稿では,3つの微粒なスケッチベース画像検索ベンチマークであるShoe-V2, Chair-V2, Sketchyについて,幅広い実験を行い,得られた表現の表現能力を示す。
実装はhttps://github.com/abhrac/xmodal-vitで確認できる。
関連論文リスト
- DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion [10.713089596405053]
二相識別型オートエンコーダフレームワークであるDAE-Fuseは、シャープで自然な融合画像を生成する。
公共の赤外線可視、医用画像融合、下流オブジェクト検出データセットの実験は、我々の方法の優位性と一般化性を示している。
論文 参考訳(メタデータ) (2024-09-16T08:37:09Z) - Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文 参考訳(メタデータ) (2024-07-01T05:32:06Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文 参考訳(メタデータ) (2022-12-25T02:27:58Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo
and Text [109.69076457732632]
本稿では,シーン理解を人間のスケッチに含めるように拡張する。
この相補性がもたらすオプションを完全にサポートするフレキシブルなジョイント埋め込みを学ぶことに注力します。
論文 参考訳(メタデータ) (2022-04-25T20:58:17Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Juggling With Representations: On the Information Transfer Between
Imagery, Point Clouds, and Meshes for Multi-Modal Semantics [0.0]
イメージとポイントクラウド(pcs)は、都市アプリケーションにおける基本的なデータ表現である。
画像とPCメッシュを明示的に統合するメッシュ駆動方式を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:26:30Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。