論文の概要: A Survey on Self-supervised Contrastive Learning for Multimodal Text-Image Analysis
- arxiv url: http://arxiv.org/abs/2503.11101v1
- Date: Fri, 14 Mar 2025 05:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:35.125363
- Title: A Survey on Self-supervised Contrastive Learning for Multimodal Text-Image Analysis
- Title(参考訳): マルチモーダルテキスト画像解析のための自己教師型コントラスト学習に関する調査
- Authors: Asifullah Khan, Laiba Asmatullah, Anza Malik, Shahzaib Khan, Hamna Asif,
- Abstract要約: 近年のテキストイメージモデルにおけるコントラスト学習のアプローチの概要について述べる。
第3に、プロセスで使用されるテクニックの最新の進歩を紹介し、議論する。
テキスト画像に基づく自己教師付きコントラスト学習モデルの最近の技術応用について論じる。
- 参考スコア(独自算出の注目度): 0.3495246564946556
- License:
- Abstract: Self-supervised learning is a machine learning approach that generates implicit labels by learning underlined patterns and extracting discriminative features from unlabeled data without manual labelling. Contrastive learning introduces the concept of "positive" and "negative" samples, where positive pairs (e.g., variation of the same image/object) are brought together in the embedding space, and negative pairs (e.g., views from different images/objects) are pushed farther away. This methodology has shown significant improvements in image understanding and image text analysis without much reliance on labeled data. In this paper, we comprehensively discuss the terminologies, recent developments and applications of contrastive learning with respect to text-image models. Specifically, we provide an overview of the approaches of contrastive learning in text-image models in recent years. Secondly, we categorize the approaches based on different model structures. Thirdly, we further introduce and discuss the latest advances of the techniques used in the process such as pretext tasks for both images and text, architectural structures, and key trends. Lastly, we discuss the recent state-of-art applications of self-supervised contrastive learning Text-Image based models.
- Abstract(参考訳): 自己教師付き学習は、アンダーラインパターンを学習し、手動ラベリングなしでラベル付けされていないデータから識別的特徴を抽出することで、暗黙のラベルを生成する機械学習アプローチである。
対照的な学習は、正のペア(例えば、同じ画像/オブジェクトのバリエーション)を埋め込み空間に集め、負のペア(例えば、異なる画像/オブジェクトからのビュー)を遠くに押し付ける「正の」サンプルと「負の」サンプルの概念を導入する。
この手法は,ラベル付きデータに依存しない画像理解と画像テキスト解析において,大幅な改善が見られた。
本稿では,テキストイメージモデルに対するコントラスト学習の用語,最近の展開,応用について概説する。
具体的には,近年のテキストイメージモデルにおけるコントラスト学習のアプローチの概要について述べる。
次に、異なるモデル構造に基づいてアプローチを分類する。
第3に、画像とテキストの両方のプリテキストタスク、アーキテクチャ構造、キートレンドなど、プロセスで使用される技術の最新の進歩を紹介し、議論する。
最後に,テキスト画像に基づく自己教師付きコントラスト学習モデルの最近の技術応用について論じる。
関連論文リスト
- A Simple Graph Contrastive Learning Framework for Short Text Classification [23.36436403062214]
短文分類のための簡易グラフコントラスト学習フレームワーク(SimSTC)を提案する。
本手法は,マルチビュー・コントラッシブ・ラーニングの利点を生かしながら,コントラスト・ビューを生成するためのデータ拡張操作を不要とする。
その単純さにもかかわらず、我々のモデルは優れた性能を達成し、様々なデータセット上の大きな言語モデルを上回っている。
論文 参考訳(メタデータ) (2025-01-16T00:35:56Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Heterogeneous Contrastive Learning for Foundation Models and Beyond [73.74745053250619]
ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。
本調査は基礎モデルの異種コントラスト学習の現況を批判的に評価する。
論文 参考訳(メタデータ) (2024-03-30T02:55:49Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。