論文の概要: SITTA: A Semantic Image-Text Alignment for Image Captioning
- arxiv url: http://arxiv.org/abs/2307.05591v1
- Date: Mon, 10 Jul 2023 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 16:07:22.393401
- Title: SITTA: A Semantic Image-Text Alignment for Image Captioning
- Title(参考訳): SITTA:画像キャプションのための意味的画像テキストアライメント
- Authors: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
- Abstract要約: 2つの事前訓練されたモデルの埋め込み空間間で意味を伝達する線形写像を構築する2つの新しい方法を導入する。
セマンティックマッピングを用いて、勾配情報にアクセスせずにLMのイメージキャプションをアンロックする。
本手法により,計算資源が制限された機関では,画像キャプションの利用がより容易になる。
- 参考スコア(独自算出の注目度): 5.805305403816407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual and semantic comprehension of images is essential for generating
proper captions. The comprehension requires detection of objects, modeling of
relations between them, an assessment of the semantics of the scene and,
finally, representing the extracted knowledge in a language space. To achieve
rich language capabilities while ensuring good image-language mappings,
pretrained language models (LMs) were conditioned on pretrained multi-modal
(image-text) models that allow for image inputs. This requires an alignment of
the image representation of the multi-modal model with the language
representations of a generative LM. However, it is not clear how to best
transfer semantics detected by the vision encoder of the multi-modal model to
the LM. We introduce two novel ways of constructing a linear mapping that
successfully transfers semantics between the embedding spaces of the two
pretrained models. The first aligns the embedding space of the multi-modal
language encoder with the embedding space of the pretrained LM via token
correspondences. The latter leverages additional data that consists of
image-text pairs to construct the mapping directly from vision to language
space. Using our semantic mappings, we unlock image captioning for LMs without
access to gradient information. By using different sources of data we achieve
strong captioning performance on MS-COCO and Flickr30k datasets. Even in the
face of limited data, our method partly exceeds the performance of other
zero-shot and even finetuned competitors. Our ablation studies show that even
LMs at a scale of merely 250M parameters can generate decent captions employing
our semantic mappings. Our approach makes image captioning more accessible for
institutions with restricted computational resources.
- Abstract(参考訳): 適切なキャプションを生成するには,画像のテキスト的・意味的理解が不可欠である。
理解には、オブジェクトの検出、それら間の関係のモデリング、シーンのセマンティクスの評価、そして最後に、抽出された知識を言語空間で表現する必要がある。
優れた画像言語マッピングを確保しつつ、リッチな言語機能を実現するために、画像入力が可能な事前訓練されたマルチモーダル(画像テキスト)モデルに事前訓練された言語モデル(LM)を条件付けした。
これは、マルチモーダルモデルのイメージ表現と、生成的LMの言語表現とのアライメントを必要とする。
しかし、マルチモーダルモデルの視覚エンコーダによって検出されたセマンティクスをLMに転送する方法は明らかになっていない。
本稿では,2つの事前学習モデルの埋め込み空間間で意味を伝達する線形写像を構築する2つの新しい方法を紹介する。
1つ目は、マルチモーダル言語エンコーダの埋め込み空間と、トークン対応を介して予め訓練されたLMの埋め込み空間とを一致させる。
後者は、視覚から言語空間へのマッピングを直接構築するために、画像とテキストのペアからなる追加データを活用する。
セマンティックマッピングを用いて、勾配情報にアクセスせずにLMのイメージキャプションをアンロックする。
異なるデータソースを使用することで,MS-COCOとFlickr30kデータセットのキャプション性能が向上する。
限られたデータに直面しても、この手法は他のゼロショットや微調整された競合よりも性能が高い。
我々のアブレーション研究は、たった2億5000万のパラメータのスケールのLMでさえ、意味マッピングを用いたまともなキャプションを生成できることを示している。
本手法は, 計算資源が制限された施設において, 画像キャプションをより使いやすくする。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。