論文の概要: Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention
- arxiv url: http://arxiv.org/abs/2504.02496v1
- Date: Thu, 03 Apr 2025 11:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:13.590631
- Title: Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention
- Title(参考訳): メモリ差分符号化とアテンションを考慮したグループベース識別画像キャプション
- Authors: Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan,
- Abstract要約: グループベース微分差分キャプション法
Group-based Differential Memory Attention (GDMA)モジュール。
新しい評価指標DisWordRate
- 参考スコア(独自算出の注目度): 62.246950834745796
- License:
- Abstract: Recent advances in image captioning have focused on enhancing accuracy by substantially increasing the dataset and model size. While conventional captioning models exhibit high performance on established metrics such as BLEU, CIDEr, and SPICE, the capability of captions to distinguish the target image from other similar images is under-explored. To generate distinctive captions, a few pioneers employed contrastive learning or re-weighted the ground-truth captions. However, these approaches often overlook the relationships among objects in a similar image group (e.g., items or properties within the same album or fine-grained events). In this paper, we introduce a novel approach to enhance the distinctiveness of image captions, namely Group-based Differential Distinctive Captioning Method, which visually compares each image with other images in one similar group and highlights the uniqueness of each image. In particular, we introduce a Group-based Differential Memory Attention (GDMA) module, designed to identify and emphasize object features in an image that are uniquely distinguishable within its image group, i.e., those exhibiting low similarity with objects in other images. This mechanism ensures that such unique object features are prioritized during caption generation for the image, thereby enhancing the distinctiveness of the resulting captions. To further refine this process, we select distinctive words from the ground-truth captions to guide both the language decoder and the GDMA module. Additionally, we propose a new evaluation metric, the Distinctive Word Rate (DisWordRate), to quantitatively assess caption distinctiveness. Quantitative results indicate that the proposed method significantly improves the distinctiveness of several baseline models, and achieves state-of-the-art performance on distinctiveness while not excessively sacrificing accuracy...
- Abstract(参考訳): 画像キャプションの最近の進歩は、データセットとモデルサイズを大幅に増やすことによる精度の向上に焦点を当てている。
従来のキャプションモデルは,BLEU,CIDEr,SPICEなどの確立した指標に対して高い性能を示すが,他の類似画像と区別するキャプションの能力は乏しい。
独特なキャプションを生成するために、少数の開拓者は対照的な学習を取り入れたり、基幹のキャプションを再重み付けしたりした。
しかしながら、これらのアプローチは、同じイメージグループ(例えば、同じアルバム内のアイテムやプロパティやきめ細かいイベント)内のオブジェクト間の関係をしばしば見落としている。
本稿では,画像キャプションの特異性,すなわち,画像と他の画像とを視覚的に比較し,画像の特異性を強調するグループ型差分的キャプション手法を提案する。
特に,GDMA (Group-based Differential Memory Attention) モジュールを導入し,画像中のオブジェクトの特徴を識別・強調する。
この機構により、画像のキャプション生成中にそのようなユニークなオブジェクトの特徴が優先され、その結果のキャプションの特異性を高めることができる。
この処理をさらに洗練するために、言語デコーダとGDMAモジュールの両方をガイドするために、接頭辞から特徴語を選択する。
さらに,印象的単語レート(DisWordRate, Distinctive Word Rate, DisWordRate, Distinctive Word Rate, DisWordRate)を定量的に評価する指標を提案する。
定量的結果から,提案手法はいくつかのベースラインモデルの特異性を著しく改善し,過度に精度を犠牲にすることなく,その特異性に対する最先端性能を実現することが示唆された。
関連論文リスト
- Distinctive Image Captioning via CLIP Guided Group Optimization [13.102953452346297]
本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
本稿では,大規模視覚言語事前学習モデルCLIPを用いて,その特徴を定量化する一連の指標を提案する。
対象画像を類似画像群と比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-08-08T16:37:01Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - On Distinctive Image Captioning via Comparing and Reweighting [52.3731631461383]
本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。
MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなった。
対照的に、以前の研究は通常、トレーニング中に人間のアノテーションを平等に扱う。
論文 参考訳(メタデータ) (2022-04-08T08:59:23Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Compare and Reweight: Distinctive Image Captioning Using Similar Images
Sets [52.3731631461383]
我々は,類似画像の集合を用いた訓練により,画像キャプションの特異性を向上させることを目的としている。
評価基準は,各画像の人的アノテーションが特徴性に基づいて等価でないことを示す。
論文 参考訳(メタデータ) (2020-07-14T07:40:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。