論文の概要: A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2201.02772v1
- Date: Sat, 8 Jan 2022 06:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:43:40.212754
- Title: A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval
- Title(参考訳): 教師付きクロスモーダル検索のための視覚言語事前学習モデルの総合的研究
- Authors: Zhixiong Zeng and Wenji Mao
- Abstract要約: CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。
私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。
本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
- 参考スコア(独自算出の注目度): 19.2650103482509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Modal Retrieval (CMR) is an important research topic across multimodal
computing and information retrieval, which takes one type of data as the query
to retrieve relevant data of another type, and has been widely used in many
real-world applications. Recently, the vision-language pre-trained model
represented by CLIP has demonstrated its superiority of learning visual and
textual representations and its impressive performance on various vision and
language related tasks. Although CLIP as well as the previous pre-trained
models have shown great performance improvement in unsupervised CMR, the
performance and impact of these pre-trained models on supervised CMR were
rarely explored due to the lack of multimodal class-level associations.
In this paper, we take CLIP as the current representative vision-language
pre-trained model to conduct a comprehensive empirical study and provide
insights on its performance and impact on supervised CMR. To this end, we first
propose a novel model CLIP4CMR (\textbf{CLIP For} supervised
\textbf{C}ross-\textbf{M}odal \textbf{R}etrieval) that employs pre-trained CLIP
as backbone network to perform supervised CMR. We then revisit the existing
loss function design in CMR, including the most common pair-wise losses,
class-wise losses and hybrid ones, and provide insights on applying CLIP.
Moreover, we investigate several concerned issues in supervised CMR and provide
new perspectives for this field via CLIP4CMR, including the robustness to
modality imbalance and the sensitivity to hyper-parameters. Extensive
experimental results show that the CLIP4CMR achieves SOTA results with
significant improvements on the benchmark datasets Wikipedia, NUS-WIDE,
Pascal-Sentence and XmediaNet. Our data and codes are publicly available at
https://github.com/zhixiongz/CLIP4CMR.
- Abstract(参考訳): CMR(Cross-Modal Retrieval)は、マルチモーダルコンピューティングと情報検索にまたがる重要な研究トピックであり、あるタイプのデータを他のタイプの関連データを取得するクエリとして取り、多くの現実世界のアプリケーションで広く使われている。
近年,CLIPで表現される視覚言語事前学習モデルは,視覚およびテキスト表現の学習の優位性を示し,様々な視覚および言語関連タスクにおける印象的な性能を示した。
CLIPと以前の事前学習モデルでは、教師なしCMRの性能改善が見られたが、教師付きCMRに対する事前学習モデルの性能と影響は、マルチモーダルなクラスレベルの関連性が欠如していることから、ほとんど調査されなかった。
本稿では、CLIPを現在の視覚言語事前訓練モデルとして捉え、総合的な実証的研究を行い、その性能と教師付きCMRへの影響について考察する。
そこで本研究では,CLIPをバックボーンネットワークとして使用する新しいモデルCLIP4CMR(\textbf{CLIP For} supervised \textbf{C}ross-\textbf{M}odal \textbf{R}etrieval)を提案する。
次に、CMRにおける既存の損失関数設計を再検討し、最も一般的なペアワイズ損失、クラスワイズ損失、ハイブリッド損失を含む、CLIPの適用に関する洞察を提供する。
さらに, 教師付きcmrの問題点について検討し, モダリティ不均衡に対するロバスト性やハイパーパラメータに対する感度など, clip4cmr を通じて, この分野の新たな展望を提供する。
大規模な実験結果によると、CLIP4CMRは、ベンチマークデータセットであるWikipedia、NUS-WIDE、Pascal-Sentence、XmediaNetを大幅に改善したSOTA結果を達成する。
我々のデータとコードはhttps://github.com/zhixiongz/CLIP4CMRで公開されています。
関連論文リスト
- Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - URRL-IMVC: Unified and Robust Representation Learning for Incomplete Multi-View Clustering [28.776476995363048]
不完全なマルチビュークラスタリングのための統一表現学習(URRL-IMVC)を提案する。
URRL-IMVCは、複数のビューや隣接するサンプルからの情報を統合することで、失われた状態を見るのに堅牢な統合埋め込みを直接学習する。
提案するURRL-IMVCフレームワークを様々なベンチマークデータセット上で広範囲に評価し,その最先端性能を実証した。
論文 参考訳(メタデータ) (2024-07-12T09:35:25Z) - Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Interventional Contrastive Learning with Meta Semantic Regularizer [28.708395209321846]
コントラスト学習(CL)に基づく自己教師型学習モデルでは,視覚的表現を相互に学習する。
CLモデルがフルイメージでトレーニングされる場合、フルイメージでテストされるパフォーマンスは、フォアグラウンドのモデルよりも優れている。
CLモデルが前景領域で訓練された場合、全画像でテストされた性能は前景領域よりも悪い。
論文 参考訳(メタデータ) (2022-06-29T15:02:38Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - On Continual Model Refinement in Out-of-Distribution Data Streams [64.62569873799096]
現実世界の自然言語処理(NLP)モデルは、アウト・オブ・ディストリビューション(OOD)データストリームの予測エラーを修正するために、継続的に更新する必要がある。
既存の継続学習(CL)問題設定は、そのような現実的で複雑なシナリオをカバーできない。
連続モデル改良(CMR)と呼ばれる新しいCL問題定式化を提案する。
論文 参考訳(メタデータ) (2022-05-04T11:54:44Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。