論文の概要: FuseCap: Leveraging Large Language Models to Fuse Visual Data into
Enriched Image Captions
- arxiv url: http://arxiv.org/abs/2305.17718v1
- Date: Sun, 28 May 2023 13:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:07:16.772774
- Title: FuseCap: Leveraging Large Language Models to Fuse Visual Data into
Enriched Image Captions
- Title(参考訳): FuseCap: ビジュアルデータをリッチなイメージキャプションにフェースするために大規模な言語モデルを活用する
- Authors: Noam Rotstein, David Bensaid, Shaked Brody, Roy Ganz, Ron Kimmel
- Abstract要約: FuseCapは、付加的な視覚情報でキャプションを豊かにする新しい方法である。
定量的および定性的な分析により,提案手法の有効性を検証した。
そこで本手法を用いて,キャプションモデルに基づくBLIPのトレーニングセットをキュレートする。
- 参考スコア(独自算出の注目度): 9.542964788501227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is a central task in computer vision which has experienced
substantial progress following the advent of vision-language pre-training
techniques. In this paper, we highlight a frequently overlooked limitation of
captioning models that often fail to capture semantically significant elements.
This drawback can be traced back to the text-image datasets; while their
captions typically offer a general depiction of image content, they frequently
omit salient details. To mitigate this limitation, we propose FuseCap - a novel
method for enriching captions with additional visual information, obtained from
vision experts, such as object detectors, attribute recognizers, and Optical
Character Recognizers (OCR). Our approach fuses the outputs of such vision
experts with the original caption using a large language model (LLM), yielding
enriched captions that present a comprehensive image description. We validate
the effectiveness of the proposed caption enrichment method through both
quantitative and qualitative analysis. Our method is then used to curate the
training set of a captioning model based BLIP which surpasses current
state-of-the-art approaches in generating accurate and detailed captions while
using significantly fewer parameters and training data. As additional
contributions, we provide a dataset comprising of 12M image-enriched caption
pairs and show that the proposed method largely improves image-text retrieval.
- Abstract(参考訳): 画像キャプションはコンピュータビジョンにおける中心的な課題であり、視覚言語による事前学習技術の出現以降、かなりの進歩を遂げてきた。
本稿では,意味的に重要な要素を捉えるのにしばしば失敗するキャプションモデルに,しばしば見落とされがちな制限を強調する。
この欠点は、テキスト画像データセットに遡ることができる。キャプションは通常、画像コンテンツの一般的な描写を提供するが、しばしば詳細を省略する。
この制限を緩和するために,物体検出器,属性認識器,光学文字認識器 (OCR) などの視覚専門家から得られた視覚情報によりキャプションを充実させる新しい手法であるFuseCapを提案する。
提案手法は,大規模な言語モデル (LLM) を用いて視覚専門家の出力を元のキャプションと融合し,包括的画像記述を示す豊富なキャプションを生成する。
定量的および定性的な分析により,提案手法の有効性を検証した。
提案手法は, 高精度かつ詳細なキャプションを生成する上で, 精度の低いパラメータとトレーニングデータを用いて, 最先端のアプローチを超越したキャプションモデルBLIPのトレーニングセットをキュレートする。
さらに,12M画像強化キャプションペアからなるデータセットを提供し,提案手法が画像テキスト検索を大幅に改善することを示す。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。