論文の概要: CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation
- arxiv url: http://arxiv.org/abs/2407.11393v2
- Date: Wed, 17 Jul 2024 16:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 12:07:55.380509
- Title: CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation
- Title(参考訳): CIC-BART-SSA:構造化セマンティック拡張による制御可能な画像キャプション
- Authors: Kalliopi Basioti, Mohamed A. Abdelsalam, Federico Fancellu, Vladimir Pavlovic, Afsaneh Fazly,
- Abstract要約: そこで本研究では,集中型および視覚的接地型キャプションをサンプリングするための,新しい完全自動手法を提案する。
抽象的意味表現(AMR)を利用して、エンティティ間のすべての意味・意味関係を符号化する。
次に、SSAに分散したデータセットから制御信号を出力する新しいモデルCIC-BART-SSAを開発する。
- 参考スコア(独自算出の注目度): 9.493755431645313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable Image Captioning (CIC) aims at generating natural language descriptions for an image, conditioned on information provided by end users, e.g., regions, entities or events of interest. However, available image-language datasets mainly contain captions that describe the entirety of an image, making them ineffective for training CIC models that can potentially attend to any subset of regions or relationships. To tackle this challenge, we propose a novel, fully automatic method to sample additional focused and visually grounded captions using a unified structured semantic representation built on top of the existing set of captions associated with an image. We leverage Abstract Meaning Representation (AMR), a cross-lingual graph-based semantic formalism, to encode all possible spatio-semantic relations between entities, beyond the typical spatial-relations-only focus of current methods. We use this Structured Semantic Augmentation (SSA) framework to augment existing image-caption datasets with the grounded controlled captions, increasing their spatial and semantic diversity and focal coverage. We then develop a new model, CIC-BART-SSA, specifically tailored for the CIC task, that sources its control signals from SSA-diversified datasets. We empirically show that, compared to SOTA CIC models, CIC-BART-SSA generates captions that are superior in diversity and text quality, are competitive in controllability, and, importantly, minimize the gap between broad and highly focused controlled captioning performance by efficiently generalizing to the challenging highly focused scenarios. Code is available at https://github.com/SamsungLabs/CIC-BART-SSA.
- Abstract(参考訳): Controllable Image Captioning (CIC)は、エンドユーザ、例えばリージョン、エンティティ、興味のあるイベントなどの情報に基づいて、画像の自然言語記述を生成することを目的としている。
しかし、利用可能な画像言語データセットは主に画像の全体を記述するキャプションを含んでいるため、任意の領域や関係のサブセットに参加可能なCICモデルのトレーニングには効果がない。
この課題に対処するために、画像に関連付けられた既存の字幕セットの上に構築された統一的な構造的意味表現を用いて、集中型および視覚的接地された字幕をサンプリングする、新しい完全自動手法を提案する。
我々は、抽象的意味表現(AMR)を利用して、現在の手法の典型的な空間関係のみの焦点を超えて、エンティティ間の空間-意味関係を符号化する。
本研究では,SSA(Structured Semantic Augmentation)フレームワークを用いて,既存の画像キャプチャデータセットを制御キャプションで拡張し,空間的・意味的多様性と焦点範囲を増大させる。
次に、CICタスクに適した新しいモデルであるCIC-BART-SSAを開発し、その制御信号をSSAに分散したデータセットから出力する。
我々は、SOTA CICモデルと比較して、CIC-BART-SSAは、多様性とテキスト品質に優れたキャプションを生成し、制御性に競争力があり、また、難易度の高いシナリオに効率よく一般化することで、広範と高度に焦点を絞ったキャプション性能のギャップを最小化できることを実証的に示す。
コードはhttps://github.com/SamsungLabs/CIC-BART-SSAで公開されている。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning [30.506968671472517]
我々はTRaining-Free Object-Part Enhancement (TROPE)を紹介する。
TROPEは、オブジェクト検出の提案と自然言語処理技術を使用して、追加のオブジェクト部分の詳細でベースキャプションを豊かにする。
評価の結果,TROPEはテスト対象のゼロショットICアプローチすべてに対して一貫して性能を向上し,細粒度ICデータセットの最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T05:24:01Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - CAGAN: Text-To-Image Generation with Combined Attention GANs [70.3497683558609]
テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
論文 参考訳(メタデータ) (2021-04-26T15:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。