論文の概要: Cross-Modal Similarity-Based Curriculum Learning for Image Captioning
- arxiv url: http://arxiv.org/abs/2212.07075v1
- Date: Wed, 14 Dec 2022 07:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:18:59.455016
- Title: Cross-Modal Similarity-Based Curriculum Learning for Image Captioning
- Title(参考訳): 画像キャプションのための相互類似性に基づくカリキュラム学習
- Authors: Hongkuan Zhang, Saku Sugawara, Akiko Aizawa, Lei Zhou, Ryohei Sasano,
Koichi Takeda
- Abstract要約: 本稿では,事前学習された視覚言語モデルによって計算されたクロスモーダル類似度を用いた画像キャプションの簡易かつ効率的な難易度測定法を提案する。
COCOデータセットとFlickr30kデータセットの実験から,提案手法はベースラインに対する性能と競合収束速度を向上することが示された。
- 参考スコア(独自算出の注目度): 46.18855398491187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning models require the high-level generalization ability to
describe the contents of various images in words. Most existing approaches
treat the image-caption pairs equally in their training without considering the
differences in their learning difficulties. Several image captioning approaches
introduce curriculum learning methods that present training data with
increasing levels of difficulty. However, their difficulty measurements are
either based on domain-specific features or prior model training. In this
paper, we propose a simple yet efficient difficulty measurement for image
captioning using cross-modal similarity calculated by a pretrained
vision-language model. Experiments on the COCO and Flickr30k datasets show that
our proposed approach achieves superior performance and competitive convergence
speed to baselines without requiring heuristics or incurring additional
training costs. Moreover, the higher model performance on difficult examples
and unseen data also demonstrates the generalization ability.
- Abstract(参考訳): 画像キャプションモデルは、様々な画像の内容を単語で記述する高レベルな一般化能力を必要とする。
既存のほとんどのアプローチは、学習の困難さの違いを考慮せずに、イメージキャプチャペアをトレーニングにおいて等しく扱う。
いくつかのイメージキャプション手法では, 難易度の高いトレーニングデータを提示するカリキュラム学習手法を導入している。
しかし、それらの難易度測定はドメイン固有の特徴や事前モデルのトレーニングに基づいている。
本稿では,事前学習した視覚言語モデルを用いて計算したクロスモーダル類似性を用いた,画像キャプションの簡易かつ効率的な難易度測定を提案する。
cocoおよびflickr30kデータセットを用いた実験により,提案手法は,ヒューリスティックスや追加のトレーニングコストを必要とせずに,ベースラインに対する優れたパフォーマンスとコンバージェンス速度を実現することが示された。
さらに、難しい例や見えないデータに対するより高いモデル性能は、一般化能力を示す。
関連論文リスト
- Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [0.0]
自己教師付き学習は、効果的に訓練された場合、多数の画像や言語処理の問題を解決することができる。
本研究では, セマンティックセグメンテーションタスクに対して, 以前に学習した基礎モデルを適用するための簡易かつ効率的な手法について検討した。
本研究は,少数の画像分割データを用いて,凍結画像表現と言語概念を融合する軽量トランスフォーマーベース融合モジュールであるBeyond-Labelsを提案する。
論文 参考訳(メタデータ) (2025-01-28T07:49:52Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data [40.88256210436378]
本稿では,Web スケールの画像テキストデータに基づく視覚モデルの弱教師付き事前学習を提案する。
提案手法は,画像テキストデータに基づく事前学習を分類タスクとして再編成する。
Webスケールのデータに対する対照的な学習に比べて、トレーニング速度の2.7倍の加速を実現している。
論文 参考訳(メタデータ) (2024-04-24T05:13:28Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。