Fugu-MT 論文翻訳(概要): ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations

論文の概要: ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations

arxiv url: http://arxiv.org/abs/2211.07122v1
Date: Mon, 14 Nov 2022 05:17:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 18:34:25.774960
Title: ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations
Title（参考訳）: ContextCLIP: CLIPビジュアル表現における画像テキストペアのコンテキストアライメント
Authors: Chanda Grover, Indra Deep Mastan, Debayan Gupta
Abstract要約: 画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。 ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
参考スコア（独自算出の注目度）: 4.588028371034406
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: State-of-the-art empirical work has shown that visual representations learned by deep neural networks are robust in nature and capable of performing classification tasks on diverse datasets. For example, CLIP demonstrated zero-shot transfer performance on multiple datasets for classification tasks in a joint embedding space of image and text pairs. However, it showed negative transfer performance on standard datasets, e.g., BirdsNAP, RESISC45, and MNIST. In this paper, we propose ContextCLIP, a contextual and contrastive learning framework for the contextual alignment of image-text pairs by learning robust visual representations on Conceptual Captions dataset. Our framework was observed to improve the image-text alignment by aligning text and image representations contextually in the joint embedding space. ContextCLIP showed good qualitative performance for text-to-image retrieval tasks and enhanced classification accuracy. We evaluated our model quantitatively with zero-shot transfer and fine-tuning experiments on CIFAR-10, CIFAR-100, Birdsnap, RESISC45, and MNIST datasets for classification task.
Abstract（参考訳）: 最先端の実証研究は、ディープニューラルネットワークによって学習された視覚表現が本質的に堅牢であり、多様なデータセットで分類タスクを実行することができることを示した。例えば、CLIPは画像とテキストの組込み空間における分類タスクのための複数のデータセットに対してゼロショット転送性能を示した。しかし、標準データセット(例えばBirdsNAP、RESISC45、MNIST)では負の転送性能を示した。本稿では,概念的キャプションのデータセット上で頑健な視覚表現を学習することにより,文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善する。 ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。我々は,CIFAR-10,CIFAR-100,Birdsnap,RESISC45,MNISTデータセットを用いて,ゼロショット転送および微調整実験により定量的に評価した。

関連論文リスト

Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文参考訳（メタデータ） (2025-05-04T22:18:14Z)
Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文参考訳（メタデータ） (2024-09-15T13:02:14Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文参考訳（メタデータ） (2023-12-14T12:39:29Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。 VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文参考訳（メタデータ） (2021-12-04T18:34:24Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文参考訳（メタデータ） (2021-07-08T10:54:59Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。