論文の概要: Dynamic Weighted Combiner for Mixed-Modal Image Retrieval
- arxiv url: http://arxiv.org/abs/2312.06179v1
- Date: Mon, 11 Dec 2023 07:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:44:49.004749
- Title: Dynamic Weighted Combiner for Mixed-Modal Image Retrieval
- Title(参考訳): 混合モード画像検索のための動的重み付け結合器
- Authors: Fuxiang Huang, Lei Zhang, Xiaowei Fu, Suqi Song
- Abstract要約: フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
- 参考スコア(独自算出の注目度): 8.683144453481328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-Modal Image Retrieval (MMIR) as a flexible search paradigm has
attracted wide attention. However, previous approaches always achieve limited
performance, due to two critical factors are seriously overlooked. 1) The
contribution of image and text modalities is different, but incorrectly treated
equally. 2) There exist inherent labeling noises in describing users'
intentions with text in web datasets from diverse real-world scenarios, giving
rise to overfitting. We propose a Dynamic Weighted Combiner (DWC) to tackle the
above challenges, which includes three merits. First, we propose an Editable
Modality De-equalizer (EMD) by taking into account the contribution disparity
between modalities, containing two modality feature editors and an adaptive
weighted combiner. Second, to alleviate labeling noises and data bias, we
propose a dynamic soft-similarity label generator (SSG) to implicitly improve
noisy supervision. Finally, to bridge modality gaps and facilitate similarity
learning, we propose a CLIP-based mutual enhancement module alternately trained
by a mixed-modality contrastive loss. Extensive experiments verify that our
proposed model significantly outperforms state-of-the-art methods on real-world
datasets. The source code is available at
\url{https://github.com/fuxianghuang1/DWC}.
- Abstract(参考訳): フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
しかし、2つの重要な要因が著しく見過ごされているため、従来のアプローチは常に限られた性能を達成する。
1) 画像とテキストのモダリティの寄与は異なるが, 等しく扱われていない。
2) 多様な実世界のシナリオから, ユーザの意図をテキストで記述することで, オーバーフィッティングを生じさせる固有のラベル付けノイズが存在する。
3つのメリットを含む上記の課題に取り組むために,動的重み付きコンビネータ(dwc)を提案する。
まず,2つのモダリティ特徴エディタと適応重み付けコンバータを含むモダリティ間の寄与格差を考慮し,編集可能なモダリティデ平等化器(EMD)を提案する。
第2に,ラベリングノイズとデータバイアスを軽減するために,雑音を暗黙的に改善する動的ソフト類似性ラベル生成器(SSG)を提案する。
最後に、モダリティギャップを橋渡しし、類似性学習を容易にするために、混合モダリティコントラスト損失によって交互に訓練されるクリップベースの相互強化モジュールを提案する。
広範な実験により,提案手法が実世界のデータセットの最先端手法を大幅に上回ることを確認した。
ソースコードは \url{https://github.com/fuxianghuang1/dwc} で入手できる。
関連論文リスト
- Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media [34.664388374279596]
マルチモーダル投稿からユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Fusion Transformer)を提案する。
まず,事前学習した大規模視覚言語モデルを用いて,高品質なテキストと画像表現を組み込む。
そこで我々は, 異質性やノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM) を考案した。
論文 参考訳(メタデータ) (2024-05-09T13:32:26Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios [23.43319138048058]
実践シナリオにおけるマルチモーダル感情認識(MER)は、欠落したデータや不完全なデータの存在によって著しく困難である。
従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。
本稿では,雑音データから頑健なマルチモーダル関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。
論文 参考訳(メタデータ) (2023-09-21T10:49:02Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - ANIMC: A Soft Framework for Auto-weighted Noisy and Incomplete
Multi-view Clustering [59.77141155608009]
本稿では, ソフトな自己重み付き戦略と2倍のソフトな正規回帰モデルを用いて, 自動重み付きノイズと不完全なマルチビュークラスタリングフレームワーク(ANIMC)を提案する。
ANIMCには3つの独特な利点がある: 1) 異なるシナリオでフレームワークを調整し、その一般化能力を向上させるソフトアルゴリズム、2) 各ビューに対する適切な重み付けを自動的に学習し、ノイズの影響を低減し、3) 異なるビューで同じインスタンスを整列させ、欠落したインスタンスの影響を減少させる。
論文 参考訳(メタデータ) (2020-11-20T10:37:27Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。