論文の概要: Distinctive Image Captioning via CLIP Guided Group Optimization
- arxiv url: http://arxiv.org/abs/2208.04254v3
- Date: Thu, 11 Aug 2022 16:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 11:10:33.516660
- Title: Distinctive Image Captioning via CLIP Guided Group Optimization
- Title(参考訳): CLIPガイド付きグループ最適化による識別画像のキャプション
- Authors: Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu
- Abstract要約: 本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
本稿では,大規模視覚言語事前学習モデルCLIPを用いて,その特徴を定量化する一連の指標を提案する。
対象画像を類似画像群と比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う,シンプルで効果的なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 13.102953452346297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning models are usually trained according to human annotated
ground-truth captions, which could generate accurate but generic captions. In
this paper, we focus on generating the distinctive captions that can
distinguish the target image from other similar images. To evaluate the
distinctiveness of captions, we introduce a series of metrics that use
large-scale vision-language pre-training model CLIP to quantify the
distinctiveness. To further improve the distinctiveness of captioning models,
we propose a simple and effective training strategy which trains the model by
comparing target image with similar image group and optimizing the group
embedding gap. Extensive experiments are conducted on various baseline models
to demonstrate the wide applicability of our strategy and the consistency of
metric results with human evaluation. By comparing the performance of our best
model with existing state-of-the-art models, we claim that our model achieves
new state-of-the-art towards distinctiveness objective.
- Abstract(参考訳): 画像キャプションモデルは通常、人間の注釈付き接地木キャプションに基づいて訓練され、正確だが汎用的なキャプションを生成する。
本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
キャプションの特異性を評価するために,大規模視覚言語事前学習モデルCLIPを用いて特徴度を定量化する一連の指標を提案する。
キャプションモデルの特異性をさらに向上するため,ターゲット画像と類似画像群を比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う簡易かつ効果的なトレーニング戦略を提案する。
様々なベースラインモデルを用いて,我々の戦略の広範な適用性,および測定結果と人的評価との整合性を示す実験を行った。
我々の最良のモデルのパフォーマンスを既存の最先端モデルと比較することで、我々のモデルは識別性目標に向けて新しい最先端モデルを達成していると主張する。
関連論文リスト
- An Improved Method for Personalizing Diffusion Models [23.20529652769131]
拡散モデルは印象的な画像生成能力を示している。
テキストインバージョンやドリームブートのようなパーソナライズされたアプローチは、特定の画像を用いたモデルのパーソナライゼーションを強化する。
提案手法は,新たな情報統合におけるモデルの本来の知識を維持することを目的としている。
論文 参考訳(メタデータ) (2024-07-07T09:52:04Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - ECO: Ensembling Context Optimization for Vision-Language Models [22.32996522125523]
学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。
推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
論文 参考訳(メタデータ) (2023-07-26T09:31:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。