論文の概要: Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion
- arxiv url: http://arxiv.org/abs/2306.11593v2
- Date: Tue, 23 Sep 2025 16:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.340062
- Title: Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion
- Title(参考訳): ランク付けとLLM融合による記述性向上
- Authors: Luigi Celona, Simone Bianco, Marco Donzella, Paolo Napoletano,
- Abstract要約: State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 8.526212812623202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-The-Art (SoTA) image captioning models are often trained on the MicroSoft Common Objects in Context (MS-COCO) dataset, which contains human-annotated captions with an average length of approximately ten tokens. Although effective for general scene understanding, these short captions often fail to capture complex scenes and convey detailed information. Moreover, captioning models tend to exhibit bias towards the ``average'' caption, which captures only the more general aspects, thus overlooking finer details. In this paper, we present a novel approach to generate richer and more informative image captions by combining the captions generated from different SoTA captioning models. Our proposed method requires no additional model training: given an image, it leverages pre-trained models from the literature to generate the initial captions, and then ranks them using a newly introduced image-text-based metric, which we name BLIPScore. Subsequently, the top two captions are fused using a Large Language Model (LLM) to produce the final, more detailed description. Experimental results on the MS-COCO and Flickr30k test sets demonstrate the effectiveness of our approach in terms of caption-image alignment and hallucination reduction according to the ALOHa, CAPTURE, and Polos metrics. A subjective study lends additional support to these results, suggesting that the captions produced by our model are generally perceived as more consistent with human judgment. By combining the strengths of diverse SoTA models, our method enhances the quality and appeal of image captions, bridging the gap between automated systems and the rich and informative nature of human-generated descriptions. This advance enables the generation of more suitable captions for the training of both vision-language and captioning models.
- Abstract(参考訳): State-of-The-Art (SoTA)イメージキャプションモデルは、平均10個のトークンを持つ人称注釈付きキャプションを含むMicroSoft Common Objects in Context (MS-COCO)データセットでトレーニングされることが多い。
一般的なシーン理解には有効であるが、これらの短いキャプションは複雑なシーンを捉え、詳細な情報を伝えるのに失敗することが多い。
さらに、キャプションモデルは'平均'のキャプションに対するバイアスを示す傾向があり、より一般的な側面のみをキャプチャし、より細かい詳細を見渡す。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
提案手法では,画像から事前学習したモデルを用いて初期キャプションを生成し,新たに導入された画像テキストベースのメトリクスを用いてランク付けし,BLIPScoreと命名する。
その後、上位2つのキャプションはLarge Language Model (LLM)を使用して融合され、最終的なより詳細な記述が作成される。
MS-COCO と Flickr30k テストセットの実験結果から,ALOHa,CAPTURE,Polos 測定値によるキャプション・イメージアライメントと幻覚減少の観点から,本手法の有効性が示された。
主観的な研究はこれらの結果にさらなる支持を与え、我々のモデルが生成したキャプションは一般に人間の判断と一致していると考えられることを示唆している。
多様なSoTAモデルの強みを組み合わせることで、画像キャプションの品質と魅力を高め、自動システムと人為的記述の豊かで情報的な性質のギャップを埋める。
この進歩により、視覚言語とキャプションモデルの両方のトレーニングに適したキャプションを生成することができる。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。
キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:38:25Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。