論文の概要: RACap: Relation-Aware Prompting for Lightweight Retrieval-Augmented Image Captioning
- arxiv url: http://arxiv.org/abs/2509.15883v1
- Date: Fri, 19 Sep 2025 11:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.14162
- Title: RACap: Relation-Aware Prompting for Lightweight Retrieval-Augmented Image Captioning
- Title(参考訳): RACap: 軽量検索画像キャプションのための関係認識プロンプト
- Authors: Xiaosheng Long, Hanyu Wang, Zhentao Song, Kun Luo, Hongde Liu,
- Abstract要約: 画像キャプションのための関係認識型検索拡張モデルであるRACapを提案する。
RACapは10.8Mのトレーニング可能なパラメータしか持たないが、従来の軽量キャプションモデルに比べて性能が優れている。
- 参考スコア(独自算出の注目度): 8.596137792629529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent retrieval-augmented image captioning methods incorporate external knowledge to compensate for the limitations in comprehending complex scenes. However, current approaches face challenges in relation modeling: (1) the representation of semantic prompts is too coarse-grained to capture fine-grained relationships; (2) these methods lack explicit modeling of image objects and their semantic relationships. To address these limitations, we propose RACap, a relation-aware retrieval-augmented model for image captioning, which not only mines structured relation semantics from retrieval captions, but also identifies heterogeneous objects from the image. RACap effectively retrieves structured relation features that contain heterogeneous visual information to enhance the semantic consistency and relational expressiveness. Experimental results show that RACap, with only 10.8M trainable parameters, achieves superior performance compared to previous lightweight captioning models.
- Abstract(参考訳): 近年の検索強化画像キャプション手法では、複雑なシーンの理解の限界を補うために外部知識が組み込まれている。
1) 意味的プロンプトの表現はきめ細かな関係を捉えるには大きすぎる; 2) 画像オブジェクトとその意味的関係の明示的なモデリングは欠如している。
これらの制約に対処するため,画像キャプションのための関係対応検索拡張モデルであるRACapを提案し,検索キャプションから構造的関係意味論を抽出するだけでなく,画像から異種オブジェクトを同定する。
RACapは、意味的一貫性と関係的表現性を高めるために、不均一な視覚情報を含む構造化された関係特徴を効果的に検索する。
実験の結果,RACapはトレーニング可能なパラメータが10.8Mしかなく,従来の軽量キャプションモデルに比べて優れた性能を示した。
関連論文リスト
- RORPCap: Retrieval-based Objects and Relations Prompt for Image Captioning [1.5999407512883512]
画像キャプションのための検索型オブジェクトとリレーショナルプロンプト(RORPCap)を提案する。
RORPCapはオブジェクトとリレーション抽出モデルを使用して、画像からオブジェクトとリレーションワードを抽出する。
結果として生じる即時埋め込みと視覚テキスト埋め込みは、文字に富んだ特徴埋め込みであり、キャプション生成のためにGPT-2モデルに供給される。
論文 参考訳(メタデータ) (2025-08-10T12:27:27Z) - Dynamic Relation Inference via Verb Embeddings [2.2843519327656363]
我々は画像から関係推論の分野を推し進めるための洞察と実践的手法を提供する。
本研究では,COCOデータセットを付加した動的リレーショナル推論(DRIVE)と,対象-関連オブジェクト三重項と対応する画像を用いた微構造CLIPと,関係検出を改善するための新たな損失関数を提案する。
論文 参考訳(メタデータ) (2025-03-17T10:24:27Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。