論文の概要: Cross-Domain Image Captioning with Discriminative Finetuning
- arxiv url: http://arxiv.org/abs/2304.01662v1
- Date: Tue, 4 Apr 2023 09:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:27:47.421553
- Title: Cross-Domain Image Captioning with Discriminative Finetuning
- Title(参考訳): 識別ファインタニングによるクロスドメイン画像のキャプション
- Authors: Roberto Dess\`i, Michele Bevilacqua, Eleonora Gualdoni, Nathanael
Carraz Rakotonirina, Francesca Franzon, Marco Baroni
- Abstract要約: 自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
- 参考スコア(独自算出の注目度): 20.585138136033905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural captioners are typically trained to mimic human-generated references
without optimizing for any specific communication goal, leading to problems
such as the generation of vague captions. In this paper, we show that
fine-tuning an out-of-the-box neural captioner with a self-supervised
discriminative communication objective helps to recover a plain, visually
descriptive language that is more informative about image contents. Given a
target image, the system must learn to produce a description that enables an
out-of-the-box text-conditioned image retriever to identify such image among a
set of candidates. We experiment with the popular ClipCap captioner, also
replicating the main results with BLIP. In terms of similarity to ground-truth
human descriptions, the captions emerging from discriminative finetuning lag
slightly behind those generated by the non-finetuned model, when the latter is
trained and tested on the same caption dataset. However, when the model is used
without further tuning to generate captions for out-of-domain datasets, our
discriminatively-finetuned captioner generates descriptions that resemble human
references more than those produced by the same captioner without finetuning.
We further show that, on the Conceptual Captions dataset, discriminatively
finetuned captions are more helpful than either vanilla ClipCap captions or
ground-truth captions for human annotators tasked with an image discrimination
task.
- Abstract(参考訳): ニューラルキャプションは通常、特定のコミュニケーション目標に最適化することなく、人間が生成した参照を模倣するように訓練され、あいまいなキャプションの生成のような問題を引き起こす。
本稿では,自己教師付き判別コミュニケーション目的のニューラルネットワークキャプションを高精度に調整することで,画像内容についてより有益で視覚的な記述言語を回復できることを示す。
対象画像が与えられた場合、システムは、テキスト条件付き画像検索者が候補の中からそのような画像を識別できるようにする記述を生成する必要がある。
我々はClipCapキャプタを実験し、BLIPで主要な結果を再現した。
地味な人間の記述と類似する点において、識別的微調整ラグから出現したキャプションは、非微細化モデルによって生成されたキャプションよりわずかに遅れ、後者は同じキャプションデータセットでトレーニングされ、テストされる。
しかし、ドメイン外データセットのキャプションを生成するためにモデルがさらにチューニングされる場合、識別的に細分化されたキャプタは、同じキャプタによって生成されたものよりも人間の参照に類似した記述を生成する。
さらに,概念的キャプションデータセットにおいて,画像識別タスクを行う人間の注釈者に対して,バニラクリップキャップキャプションや地中キャプションよりも識別的微調整キャプションの方が有用であることを示す。
関連論文リスト
- Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Pragmatic Inference with a CLIP Listener for Contrastive Captioning [10.669625017690658]
そこで本研究では、ターゲット画像と、非常に類似した代替画像とを区別する識別キャプションを生成する手法を提案する。
提案手法は,話者とリスナ間の参照ゲームとしてキャプションを定式化する実用的な推論手法に基づいている。
論文 参考訳(メタデータ) (2023-06-15T02:22:28Z) - Towards Generating Diverse Audio Captions via Adversarial Training [52.163818279075194]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。