論文の概要: Plug-and-Play Regulators for Image-Text Matching
- arxiv url: http://arxiv.org/abs/2303.13371v1
- Date: Thu, 23 Mar 2023 15:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:41:00.858196
- Title: Plug-and-Play Regulators for Image-Text Matching
- Title(参考訳): 画像テキストマッチングのためのプラグアンドプレイレギュレータ
- Authors: Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu
- Abstract要約: 微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
- 参考スコア(独自算出の注目度): 76.28522712930668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting fine-grained correspondence and visual-semantic alignments has
shown great potential in image-text matching. Generally, recent approaches
first employ a cross-modal attention unit to capture latent region-word
interactions, and then integrate all the alignments to obtain the final
similarity. However, most of them adopt one-time forward association or
aggregation strategies with complex architectures or additional information,
while ignoring the regulation ability of network feedback. In this paper, we
develop two simple but quite effective regulators which efficiently encode the
message output to automatically contextualize and aggregate cross-modal
representations. Specifically, we propose (i) a Recurrent Correspondence
Regulator (RCR) which facilitates the cross-modal attention unit progressively
with adaptive attention factors to capture more flexible correspondence, and
(ii) a Recurrent Aggregation Regulator (RAR) which adjusts the aggregation
weights repeatedly to increasingly emphasize important alignments and dilute
unimportant ones. Besides, it is interesting that RCR and RAR are
plug-and-play: both of them can be incorporated into many frameworks based on
cross-modal interaction to obtain significant benefits, and their cooperation
achieves further improvements. Extensive experiments on MSCOCO and Flickr30K
datasets validate that they can bring an impressive and consistent R@1 gain on
multiple models, confirming the general effectiveness and generalization
ability of the proposed methods. Code and pre-trained models are available at:
https://github.com/Paranioar/RCAR.
- Abstract(参考訳): 細粒度対応と視覚・視覚アライメントの活用は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
一般に、近年のアプローチではまず、潜在領域と単語の相互作用を捉え、次に全てのアライメントを統合することで最終的な類似性を得る。
しかし、それらの多くは、複雑なアーキテクチャや追加情報を備えたワンタイムフォワードアソシエーションやアグリゲーション戦略を採用し、ネットワークフィードバックの規制能力を無視している。
本稿では,メッセージ出力を効率よく符号化し,コンテキストを自動生成し,モーダル表現を集約する,シンプルかつ極めて効果的な2つのレギュレータを開発する。
具体的には
一 よりフレキシブルな対応をつかむために、適応的注意要因を伴って、段階的に横断的注意ユニットを促進するリカレント対応レギュレータ(RCR)
(ii)再帰凝集調節器(rar)は、繰り返し凝集重みを調整し、重要アライメントと希薄な非重要アライメントをますます強調する。
さらに、RCRとRARがプラグイン・アンド・プレイであることは興味深い。両者は相互モーダルな相互作用に基づいて多くのフレームワークに組み込むことができ、大きなメリットを得ることができる。
MSCOCOとFlickr30Kデータセットの大規模な実験により、複数のモデルで印象的で一貫したR@1ゲインが得られ、提案手法の一般的な有効性と一般化能力が確認された。
コードおよび事前トレーニングされたモデルは、https://github.com/Paranioar/RCAR.comで利用可能である。
関連論文リスト
- Learning Partially Aligned Item Representation for Cross-Domain Sequential Recommendation [72.73379646418435]
クロスドメインシーケンシャルレコメンデーションは、ドメイン間でのユーザのシーケンシャルな好みを明らかにすることを目的としている。
ミスアライメントアイテム表現は、サブ最適シーケンシャルモデリングとユーザ表現アライメントにつながる可能性がある。
textbfCross- domain item representation textbfAlignment for textbfCross-textbfDomain textbfSequential textbfRecommendationを提案する。
論文 参考訳(メタデータ) (2024-05-21T03:25:32Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - Towards Lightweight Cross-domain Sequential Recommendation via External
Attention-enhanced Graph Convolution Network [7.1102362215550725]
クロスドメインシークエンシャルレコメンデーション(CSR)は、複数のドメインからのインタラクションをモデル化することで、重複したユーザの振る舞いパターンの進化を描いている。
上記の課題,すなわちLEA-GCNを解決するために,軽量な外部注意強化GCNベースのフレームワークを導入する。
フレームワークの構造をさらに緩和し、ユーザ固有のシーケンシャルパターンを集約するために、新しい二重チャネル外部注意(EA)コンポーネントを考案する。
論文 参考訳(メタデータ) (2023-02-07T03:06:29Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。