論文の概要: RORPCap: Retrieval-based Objects and Relations Prompt for Image Captioning
- arxiv url: http://arxiv.org/abs/2508.07318v1
- Date: Sun, 10 Aug 2025 12:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.808761
- Title: RORPCap: Retrieval-based Objects and Relations Prompt for Image Captioning
- Title(参考訳): RORPCap: 検索ベースのオブジェクトとイメージキャプションのプロンプト
- Authors: Jinjing Gu, Tianbao Qin, Yuanyuan Pu, Zhengpeng Zhao,
- Abstract要約: 画像キャプションのための検索型オブジェクトとリレーショナルプロンプト(RORPCap)を提案する。
RORPCapはオブジェクトとリレーション抽出モデルを使用して、画像からオブジェクトとリレーションワードを抽出する。
結果として生じる即時埋め込みと視覚テキスト埋め込みは、文字に富んだ特徴埋め込みであり、キャプション生成のためにGPT-2モデルに供給される。
- 参考スコア(独自算出の注目度): 1.5999407512883512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning aims to generate natural language descriptions for input images in an open-form manner. To accurately generate descriptions related to the image, a critical step in image captioning is to identify objects and understand their relations within the image. Modern approaches typically capitalize on object detectors or combine detectors with Graph Convolutional Network (GCN). However, these models suffer from redundant detection information, difficulty in GCN construction, and high training costs. To address these issues, a Retrieval-based Objects and Relations Prompt for Image Captioning (RORPCap) is proposed, inspired by the fact that image-text retrieval can provide rich semantic information for input images. RORPCap employs an Objects and relations Extraction Model to extract object and relation words from the image. These words are then incorporate into predefined prompt templates and encoded as prompt embeddings. Next, a Mamba-based mapping network is designed to quickly map image embeddings extracted by CLIP to visual-text embeddings. Finally, the resulting prompt embeddings and visual-text embeddings are concatenated to form textual-enriched feature embeddings, which are fed into a GPT-2 model for caption generation. Extensive experiments conducted on the widely used MS-COCO dataset show that the RORPCap requires only 2.6 hours under cross-entropy loss training, achieving 120.5% CIDEr score and 22.0% SPICE score on the "Karpathy" test split. RORPCap achieves comparable performance metrics to detector-based and GCN-based models with the shortest training time and demonstrates its potential as an alternative for image captioning.
- Abstract(参考訳): 画像キャプションは、入力画像の自然言語記述をオープン形式で生成することを目的としている。
画像に関する記述を正確に生成するために、画像キャプションにおける重要なステップは、オブジェクトを特定し、画像内のそれらの関係を理解することである。
現代のアプローチは一般的に、物体検出器を利用するか、グラフ畳み込みネットワーク(GCN)と検出器を組み合わせる。
しかし、これらのモデルは冗長な検出情報、GCN構築の困難さ、高いトレーニングコストに悩まされている。
これらの問題に対処するため,画像キャプションのための検索型オブジェクト・リレーショナル・プロンプト(RORPCap)を提案する。
RORPCapはオブジェクトとリレーション抽出モデルを使用して、画像からオブジェクトとリレーションワードを抽出する。
これらの単語は事前に定義されたプロンプトテンプレートに組み込まれ、プロンプト埋め込みとしてエンコードされる。
次に、Mambaベースのマッピングネットワークは、CLIPによって抽出された画像埋め込みを視覚テキスト埋め込みに素早くマッピングするように設計されている。
最後に、結果の即時埋め込みと視覚テキスト埋め込みを結合してテキストリッチな特徴埋め込みを形成し、キャプション生成のためにGPT-2モデルに入力する。
広範に使用されているMS-COCOデータセットで実施された大規模な実験によると、RORPCapはクロスエントロピー損失トレーニングで2.6時間しか必要とせず、120.5%のCIDErスコアと22.0%のSPICEスコアを"カルパシー"テストスプリットで達成している。
RORPCapは、最も短いトレーニング時間で検出器ベースのモデルとGCNベースのモデルに匹敵するパフォーマンス指標を実現し、イメージキャプションの代替としての可能性を示している。
関連論文リスト
- VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。