論文の概要: Distincive Image Captioning via CLIP Guided Group Optimization
- arxiv url: http://arxiv.org/abs/2208.04254v1
- Date: Mon, 8 Aug 2022 16:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:37:15.608354
- Title: Distincive Image Captioning via CLIP Guided Group Optimization
- Title(参考訳): CLIPガイド付きグループ最適化による識別画像のキャプション
- Authors: Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu
- Abstract要約: 類似画像群の比較によりモデルを訓練する訓練戦略を提案する。
最良モデルと既存の最先端モデルを比較することで、我々のモデルは差別化目標に向けて新しい最先端モデルを実現することができると主張している。
- 参考スコア(独自算出の注目度): 13.102953452346297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning models are usually trained according to human annotated
ground-truth captions, which could generate accurate but generic captions. To
improve the distinctiveness of captioning models, we firstly propose a series
of metrics that use large-scale vision-language pre-training model CLIP to
evaluate the distinctiveness of captions. Then we propose a simple and
effective training strategy which trains the model by comparison within similar
image groups. We conduct extensive experiments on various existing models to
demonstrate the wide applicability of our strategy and the consistency of
metric based results with human evaluation. By comparing the performance of our
best model with existing state-of-the-art models, we claim that our model
achieves new state-of-the-art towards distinctiveness objective.
- Abstract(参考訳): 画像キャプションモデルは通常、人間の注釈付き接地木キャプションに基づいて訓練され、正確だが汎用的なキャプションを生成する。
キャプションモデルの特異性を改善するために,我々はまず,大規模視覚言語事前学習モデルCLIPを用いてキャプションの特異性を評価する一連の指標を提案する。
次に,類似した画像群間での比較によりモデルを訓練する,簡便で効果的なトレーニング戦略を提案する。
我々は,既存の様々なモデルに対する広範な実験を行い,我々の戦略の広範な適用性と,計量に基づく結果と人的評価との整合性を実証した。
我々の最良のモデルのパフォーマンスを既存の最先端モデルと比較することで、我々のモデルは識別性目標に向けて新しい最先端モデルを達成していると主張する。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - ECO: Ensembling Context Optimization for Vision-Language Models [22.32996522125523]
学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。
推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
論文 参考訳(メタデータ) (2023-07-26T09:31:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Group-based Distinctive Image Captioning with Memory Attention [45.763534774116856]
GdisCap (Group-based Distinctive Captioning Model) は画像キャプションの特異性を改善する。
キャプションの識別性を測定するために,新しい評価指標DisWordRateを提案する。
論文 参考訳(メタデータ) (2021-08-20T12:46:36Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。