論文の概要: Rethinking the Reference-based Distinctive Image Captioning
- arxiv url: http://arxiv.org/abs/2207.11118v1
- Date: Fri, 22 Jul 2022 14:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:13:46.075357
- Title: Rethinking the Reference-based Distinctive Image Captioning
- Title(参考訳): 参照型識別画像キャプションの再考
- Authors: Yangjun Mao, Long Chen, Zhihong Jiang, Dong Zhang, Zhimeng Zhang, Jian
Shao, Jun Xiao
- Abstract要約: 近年の研究では、ターゲット画像と意味相似参照画像のセットを比較して、特徴的なキャプションを生成することを提案する。
我々はTransDICと呼ばれる強力なTransformerベースのRef-DICベースラインを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 17.724543105544935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distinctive Image Captioning (DIC) -- generating distinctive captions that
describe the unique details of a target image -- has received considerable
attention over the last few years. A recent DIC work proposes to generate
distinctive captions by comparing the target image with a set of
semantic-similar reference images, i.e., reference-based DIC (Ref-DIC). It aims
to make the generated captions can tell apart the target and reference images.
Unfortunately, reference images used by existing Ref-DIC works are easy to
distinguish: these reference images only resemble the target image at
scene-level and have few common objects, such that a Ref-DIC model can
trivially generate distinctive captions even without considering the reference
images. To ensure Ref-DIC models really perceive the unique objects (or
attributes) in target images, we first propose two new Ref-DIC benchmarks.
Specifically, we design a two-stage matching mechanism, which strictly controls
the similarity between the target and reference images at object-/attribute-
level (vs. scene-level). Secondly, to generate distinctive captions, we develop
a strong Transformer-based Ref-DIC baseline, dubbed as TransDIC. It not only
extracts visual features from the target image, but also encodes the
differences between objects in the target and reference images. Finally, for
more trustworthy benchmarking, we propose a new evaluation metric named
DisCIDEr for Ref-DIC, which evaluates both the accuracy and distinctiveness of
the generated captions. Experimental results demonstrate that our TransDIC can
generate distinctive captions. Besides, it outperforms several state-of-the-art
models on the two new benchmarks over different metrics.
- Abstract(参考訳): 特定画像キャプチャー(DIC: Distinctive Image Captioning)は、過去数年間で注目されている。
最近のDIC研究は、ターゲット画像と意味相似参照画像のセット、すなわち参照ベースDIC(Ref-DIC)を比較して、特徴的なキャプションを生成することを提案する。
生成されたキャプションがターゲットと参照イメージを区別できるようにする。
残念ながら、既存のRef-DIC作品の参照画像は、シーンレベルのターゲット画像にしか似ていないため、参照画像を考えることなく、Ref-DICモデルが自明なキャプションを生成できるような、一般的なオブジェクトが少ないため、区別が容易である。
Ref-DICモデルがターゲット画像のユニークなオブジェクト(または属性)を確実に認識するために、まず2つの新しいRef-DICベンチマークを提案する。
具体的には、ターゲット画像と参照画像のオブジェクト/属性レベルでの類似性(vs.シーンレベル)を厳密に制御する2段階マッチング機構を設計する。
第2に,トランスフォーマーをベースとした強力なRef-DICベースラインを作成した。
対象画像から視覚的な特徴を抽出するだけでなく、対象画像と参照画像のオブジェクト間の差異を符号化する。
最後に、より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErと呼ばれる新しい評価指標を提案し、生成されたキャプションの精度と識別性を評価した。
実験結果から,トランスDICは特異なキャプションを生成できることが示された。
さらに、異なるメトリクスに対して2つの新しいベンチマークでいくつかの最先端モデルを上回っている。
関連論文リスト
- Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Decompose Semantic Shifts for Composed Image Retrieval [38.262678009072154]
合成画像検索は、ユーザが参照画像を出発点として提供し、開始点から所望の目標画像へのシフト方法に関するテキストを指定する画像検索タスクの一種である。
本稿では,セマンティック・シフト・ネットワーク(SSN)を提案する。セマンティック・シフト・ネットワーク(SSN)は,セマンティック・シフトを,参照画像から視覚プロトタイプへ,視覚プロトタイプから対象画像へ,という2つのステップに明示的に分解する。
提案したSSNは、CIRRデータセットとFashionIQデータセットでそれぞれ5.42%と1.37%の大幅な改善を示し、新しい最先端のパフォーマンスを確立している。
論文 参考訳(メタデータ) (2023-09-18T07:21:30Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards [52.406331702017596]
近年のDIC法では,対象画像と意味相似参照画像のセットを比較して,特徴的なキャプションを生成する方法が提案されている。
本稿では,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースライントランスDICを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:37:13Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。