論文の概要: Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards
- arxiv url: http://arxiv.org/abs/2306.14259v1
- Date: Sun, 25 Jun 2023 14:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:51:41.114643
- Title: Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards
- Title(参考訳): コントラストリワードによる参照型識別画像キャプションの改善
- Authors: Yangjun Mao, Jun Xiao, Dong Zhang, Meng Cao, Jian Shao, Yueting
Zhuang, Long Chen
- Abstract要約: 近年のDIC法では,対象画像と意味相似参照画像のセットを比較して,特徴的なキャプションを生成する方法が提案されている。
本稿では,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースライントランスDICを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 52.406331702017596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distinctive Image Captioning (DIC) -- generating distinctive captions that
describe the unique details of a target image -- has received considerable
attention over the last few years. A recent DIC method proposes to generate
distinctive captions by comparing the target image with a set of
semantic-similar reference images, i.e., reference-based DIC (Ref-DIC). It aims
to force the generated captions to distinguish between the target image and the
reference image. To ensure Ref-DIC models really perceive the unique objects
(or attributes) in target images, we propose two new Ref-DIC benchmarks and
develop a Transformer-based Ref-DIC baseline TransDIC. The model only extracts
visual features from the target image, but also encodes the differences between
objects in the target and reference images. Taking one step further, we propose
a stronger TransDIC++, which consists of an extra contrastive learning module
to make full use of the reference images. This new module is model-agnostic,
which can be easily incorporated into various Ref-DIC architectures. Finally,
for more trustworthy benchmarking, we propose a new evaluation metric named
DisCIDEr for Ref-DIC, which evaluates both the accuracy and distinctiveness of
the generated captions. Experimental results demonstrate that our TransDIC++
can generate distinctive captions. Besides, it outperforms several
state-of-the-art models on the two new benchmarks over different metrics.
- Abstract(参考訳): 特定画像キャプチャー(DIC: Distinctive Image Captioning)は、過去数年間で注目されている。
近年のDIC法では,対象画像と意味相似参照画像,すなわち参照ベースDIC(Ref-DIC)のセットを比較して,特徴的なキャプションを生成する方法が提案されている。
生成されたキャプションにターゲット画像と参照画像の区別を強制することを目的としている。
Ref-DICモデルがターゲット画像のユニークなオブジェクト(または属性)を確実に認識するために,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースラインTransDICを開発した。
このモデルは、対象画像から視覚的な特徴を抽出するだけでなく、対象画像と参照画像のオブジェクト間の差異を符号化する。
さらにさらに一歩進めて,参照イメージをフル活用するための追加のコントラスト学習モジュールで構成される,より強力なTransDIC++を提案する。
このモジュールはモデルに依存しないため、様々なRef-DICアーキテクチャに簡単に組み込むことができる。
最後に、より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErと呼ばれる新しい評価指標を提案し、生成されたキャプションの精度と識別性を評価した。
実験結果から,TransDIC++は特異なキャプションを生成できることがわかった。
さらに、異なるメトリクスに対して2つの新しいベンチマークでいくつかの最先端モデルを上回っている。
関連論文リスト
- Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Rethinking the Reference-based Distinctive Image Captioning [17.724543105544935]
近年の研究では、ターゲット画像と意味相似参照画像のセットを比較して、特徴的なキャプションを生成することを提案する。
我々はTransDICと呼ばれる強力なTransformerベースのRef-DICベースラインを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:49:54Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。