論文の概要: Continual Learning for Image Captioning through Improved Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2510.06009v1
- Date: Tue, 07 Oct 2025 15:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.302173
- Title: Continual Learning for Image Captioning through Improved Image-Text Alignment
- Title(参考訳): 改良された画像テキストアライメントによる画像キャプションの連続学習
- Authors: Bertram Taetz, Gal Bordelius,
- Abstract要約: 本稿では,逐次学習とコントラッシブアライメントを通じて意味指導を統合する,連続的な画像キャプションのための新しいマルチロスフレームワークを提案する。
提案手法は,最先端の手法と比較して意味的アライメントを向上しつつ,破滅的な忘れを緩和する。
- 参考スコア(独自算出の注目度): 0.3867363075280543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate and coherent image captions in a continual learning setting remains a major challenge due to catastrophic forgetting and the difficulty of aligning evolving visual concepts with language over time. In this work, we propose a novel multi-loss framework for continual image captioning that integrates semantic guidance through prompt-based continual learning and contrastive alignment. Built upon a pretrained ViT-GPT-2 backbone, our approach combines standard cross-entropy loss with three additional components: (1) a prompt-based cosine similarity loss that aligns image embeddings with synthetically constructed prompts encoding objects, attributes, and actions; (2) a CLIP-style loss that promotes alignment between image embeddings and target caption embedding; and (3) a language-guided contrastive loss that employs a triplet loss to enhance class-level discriminability between tasks. Notably, our approach introduces no additional overhead at inference time and requires no prompts during caption generation. We find that this approach mitigates catastrophic forgetting, while achieving better semantic caption alignment compared to state-of-the-art methods. The code can be found via the following link https://github.com/ Gepardius/Taetz_Bordelius_Continual_ImageCaptioning.
- Abstract(参考訳): 連続的な学習環境で正確で一貫性のある画像キャプションを生成することは、破滅的な忘れ込みと、時間とともに進化する視覚概念を言語と整合させることの難しさによって、依然として大きな課題である。
本研究では,逐次的学習とコントラスト的アライメントを通じて意味指導を統合する,連続的な画像キャプションのための新しいマルチロスフレームワークを提案する。
事前訓練されたViT-GPT-2バックボーン上に構築された本手法では,(1)画像埋め込みを合成的に構築したプロンプト,属性,アクションを符号化するプロンプトベースのコサイン類似性損失,(2)画像埋め込みとターゲット埋め込みの整合性を促進するCLIPスタイルの損失,(3)タスク間のクラスレベルの識別性を高めるために三重項損失を利用する言語誘導のコントラクティブ損失の3つの追加成分と,標準的なクロスエントロピー損失を併用する。
特に,提案手法では推論時のオーバーヘッドが増加せず,キャプション生成時にプロンプトが不要である。
提案手法は, 従来手法に比べて意味的アライメントを向上しつつ, 破滅的な忘れを緩和する。
コードは以下のリンク https://github.com/ Gepardius/Taetz_Bordelius_Continual_ImageCaptioning で参照できる。
関連論文リスト
- ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions [17.934227561793474]
文脈記述(IRCD)からの画像検索は、言語学的に複雑なテキストに基づいて、最小限に対照的な候補のセット内で画像を特定することを目的としている。
本稿では,IRCDに挑戦する2つのコンテキストアライメント手法であるContextBLIPを提案する。
約7,500倍のパラメータを含むにもかかわらず、ContextBLIPはGPT-4Vと同等の結果が得られることが観察された。
論文 参考訳(メタデータ) (2024-05-29T16:06:21Z) - Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、弱い教師付きピクセル対ポイントのコントラスト蒸留のためのセマンティックラベルを生成するために使用される。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
我々の手法は、下流タスクにおける既存の画像からLiDARへのコントラスト蒸留法を一貫して超越している。
論文 参考訳(メタデータ) (2024-05-23T07:48:19Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Image-Text Retrieval with Binary and Continuous Label Supervision [38.682970905704906]
本稿では,BCLS(Binary and Continuous Label Supervision)を用いた画像テキスト検索フレームワークを提案する。
バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。
連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。
論文 参考訳(メタデータ) (2022-10-20T14:52:34Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。