論文の概要: Distincive Image Captioning via CLIP Guided Group Optimization
- arxiv url: http://arxiv.org/abs/2208.04254v1
- Date: Mon, 8 Aug 2022 16:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:37:15.608354
- Title: Distincive Image Captioning via CLIP Guided Group Optimization
- Title(参考訳): CLIPガイド付きグループ最適化による識別画像のキャプション
- Authors: Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu
- Abstract要約: 類似画像群の比較によりモデルを訓練する訓練戦略を提案する。
最良モデルと既存の最先端モデルを比較することで、我々のモデルは差別化目標に向けて新しい最先端モデルを実現することができると主張している。
- 参考スコア(独自算出の注目度): 13.102953452346297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning models are usually trained according to human annotated
ground-truth captions, which could generate accurate but generic captions. To
improve the distinctiveness of captioning models, we firstly propose a series
of metrics that use large-scale vision-language pre-training model CLIP to
evaluate the distinctiveness of captions. Then we propose a simple and
effective training strategy which trains the model by comparison within similar
image groups. We conduct extensive experiments on various existing models to
demonstrate the wide applicability of our strategy and the consistency of
metric based results with human evaluation. By comparing the performance of our
best model with existing state-of-the-art models, we claim that our model
achieves new state-of-the-art towards distinctiveness objective.
- Abstract(参考訳): 画像キャプションモデルは通常、人間の注釈付き接地木キャプションに基づいて訓練され、正確だが汎用的なキャプションを生成する。
キャプションモデルの特異性を改善するために,我々はまず,大規模視覚言語事前学習モデルCLIPを用いてキャプションの特異性を評価する一連の指標を提案する。
次に,類似した画像群間での比較によりモデルを訓練する,簡便で効果的なトレーニング戦略を提案する。
我々は,既存の様々なモデルに対する広範な実験を行い,我々の戦略の広範な適用性と,計量に基づく結果と人的評価との整合性を実証した。
我々の最良のモデルのパフォーマンスを既存の最先端モデルと比較することで、我々のモデルは識別性目標に向けて新しい最先端モデルを達成していると主張する。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Understanding Transferable Representation Learning and Zero-shot
Transfer in CLIP [92.7485653161698]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - ECO: Ensembling Context Optimization for Vision-Language Models [22.32996522125523]
学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。
推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
論文 参考訳(メタデータ) (2023-07-26T09:31:06Z) - Augmenting CLIP with Improved Visio-Linguistic Reasoning [51.135606355630046]
本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。