論文の概要: CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification
- arxiv url: http://arxiv.org/abs/2112.03562v1
- Date: Tue, 7 Dec 2021 08:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 13:14:45.778445
- Title: CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification
- Title(参考訳): CMA-CLIP:画像テキスト分類のためのクロスモーダルアテンションCLIP
- Authors: Huidong Liu (1), Shaoyuan Xu (2), Jinmiao Fu (2), Yang Liu (2), Ning
Xie (2), Chien-chih Wang (2), Bryan Wang (2), Yi Sun (2) ((1) Stony Brook
University, (2) Amazon Inc.)
- Abstract要約: 我々は、CMA-CLIP(Cross-Modality Attention Contrastive Language- Image Pre-training)を提案する。
CMA-CLIPは、画像とテキストのペアから情報を効果的に融合するために、シーケンスワイドアテンションとモーダリティアテンションの2つのタイプのクロスモーダリティアテンションを統一する。
我々は,Major Retail Website Product Attribute(MRWPA)データセットと2つのパブリックデータセットであるFood101とFashion-Genで実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Web systems such as social media and e-commerce contain rich contents
expressed in images and text. Leveraging information from multi-modalities can
improve the performance of machine learning tasks such as classification and
recommendation. In this paper, we propose the Cross-Modality Attention
Contrastive Language-Image Pre-training (CMA-CLIP), a new framework which
unifies two types of cross-modality attentions, sequence-wise attention and
modality-wise attention, to effectively fuse information from image and text
pairs. The sequence-wise attention enables the framework to capture the
fine-grained relationship between image patches and text tokens, while the
modality-wise attention weighs each modality by its relevance to the downstream
tasks. In addition, by adding task specific modality-wise attentions and
multilayer perceptrons, our proposed framework is capable of performing
multi-task classification with multi-modalities.
We conduct experiments on a Major Retail Website Product Attribute (MRWPA)
dataset and two public datasets, Food101 and Fashion-Gen. The results show that
CMA-CLIP outperforms the pre-trained and fine-tuned CLIP by an average of 11.9%
in recall at the same level of precision on the MRWPA dataset for multi-task
classification. It also surpasses the state-of-the-art method on Fashion-Gen
Dataset by 5.5% in accuracy and achieves competitive performance on Food101
Dataset. Through detailed ablation studies, we further demonstrate the
effectiveness of both cross-modality attention modules and our method's
robustness against noise in image and text inputs, which is a common challenge
in practice.
- Abstract(参考訳): ソーシャルメディアやeコマースのような現代のウェブシステムは、画像やテキストで表現された豊富なコンテンツを含んでいる。
マルチモダリティの情報を活用することで、分類やレコメンデーションといった機械学習タスクのパフォーマンスが向上する。
本稿では,相互モダリティの注意とモダリティの注意という2つのタイプの注意を統一し,画像とテキストのペアから情報を効果的に融合する新しい枠組みである,相互モダリティの注意比較言語-イメージ事前学習(cma-clip)を提案する。
シーケンシャルな注意によって、フレームはイメージパッチとテキストトークンの間のきめ細かい関係を捉えることができ、モダリティ的な注意は下流タスクとの関連性によって各モダリティを重くします。
さらに,多層型パーセプトロンとタスク固有モダリティアテンションを追加することで,マルチモダリティを用いたマルチタスク分類が可能となる。
我々は,Major Retail Website Product Attribute(MRWPA)データセットと2つのパブリックデータセットであるFood101とFashion-Genで実験を行った。
CMA-CLIPは、マルチタスク分類のためのMRWPAデータセットと同レベルの精度で、平均11.9%のリコールでトレーニング済みおよび微調整済みのCLIPよりも優れていた。
また、Fashion-Gen Datasetの最先端の手法を5.5%の精度で上回り、Food101 Dataset上での競合性能を達成する。
より詳細なアブレーション研究を通じて,画像およびテキスト入力におけるモーダリティ・アテンション・モジュールの有効性と,本手法の雑音に対する頑健性の両立を実証する。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval [29.838375158101027]
CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-29T13:02:35Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。