論文の概要: FlexCap: Generating Rich, Localized, and Flexible Captions in Images
- arxiv url: http://arxiv.org/abs/2403.12026v1
- Date: Mon, 18 Mar 2024 17:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:01:22.196895
- Title: FlexCap: Generating Rich, Localized, and Flexible Captions in Images
- Title(参考訳): FlexCap: 画像にリッチ、ローカライズ、フレキシブルなキャプションを生成する
- Authors: Debidatta Dwibedi, Vidhi Jain, Jonathan Tompson, Andrew Zisserman, Yusuf Aytar,
- Abstract要約: 可変長の領域固有記述を生成できる多機能な$textitflexible-captioning$ Vision-Language Model(VLM)を導入する。
モデルであるFlexCapは、入力バウンディングボックスのための長さ条件付きキャプションを生成するように訓練されている。
これにより、簡潔なオブジェクトラベルから詳細なキャプションまで、その出力の情報密度を制御できる。
- 参考スコア(独自算出の注目度): 54.796523366320486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a versatile $\textit{flexible-captioning}$ vision-language model (VLM) capable of generating region-specific descriptions of varying lengths. The model, FlexCap, is trained to produce length-conditioned captions for input bounding boxes, and this allows control over the information density of its output, with descriptions ranging from concise object labels to detailed captions. To achieve this we create large-scale training datasets of image region descriptions of varying length, starting from captioned images. This flexible-captioning capability has several valuable applications. First, FlexCap demonstrates superior performance in dense captioning tasks on the Visual Genome dataset. Second, a visual question answering (VQA) system can be built by employing FlexCap to generate localized descriptions as inputs to a large language model. The resulting system achieves state-of-the-art zero-shot performance on a number of VQA datasets. We also demonstrate a $\textit{localize-then-describe}$ approach with FlexCap can be better at open-ended object detection than a $\textit{describe-then-localize}$ approach with other VLMs. We highlight a novel characteristic of FlexCap, which is its ability to extract diverse visual information through prefix conditioning. Finally, we qualitatively demonstrate FlexCap's broad applicability in tasks such as image labeling, object attribute recognition, and visual dialog. Project webpage: https://flex-cap.github.io .
- Abstract(参考訳): 様々な長さの領域固有の記述を生成できる汎用的な$\textit{flexible-captioning}$ Vision-Language Model (VLM)を導入する。
モデルであるFlexCapは、入力バウンディングボックスのための長さ条件付きキャプションを生成するように訓練されており、これにより、簡潔なオブジェクトラベルから詳細なキャプションまで、その出力の情報密度を制御できる。
これを実現するために、キャプション付き画像から、長さの異なる画像領域記述の大規模なトレーニングデータセットを作成する。
この柔軟なカプセル化機能には、いくつかの価値のある応用がある。
まず、FlexCapはVisual Genomeデータセットの高密度キャプションタスクにおいて優れたパフォーマンスを示す。
第二に、視覚的質問応答(VQA)システムはFlexCapを利用して、大きな言語モデルへの入力として局所化された記述を生成することができる。
得られたシステムは、多数のVQAデータセット上で最先端のゼロショット性能を達成する。
また、FlexCapを使った$\textit{localize-then-describe}$アプローチは、他のVLMによる$\textit{describe-then-localize}$アプローチよりも、オープンなオブジェクト検出に優れていることを示す。
我々は,プレフィックス条件付けによって様々な視覚情報を抽出するFlexCapの特徴を強調した。
最後に、画像ラベリング、オブジェクト属性認識、ビジュアルダイアログといったタスクにおいてFlexCapの幅広い適用性を質的に示す。
プロジェクトWebページ: https://flex-cap.github.io 。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning [108.12011636732674]
MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2023-08-25T07:32:34Z) - Transferable Decoding with Visual Entities for Zero-Shot Image
Captioning [45.855652838621936]
ViECapは、見えるシナリオと見えないシナリオの両方で記述を生成する、転送可能なデコードモデルである。
ViECap にはエンティティ対応のハードプロンプトが組み込まれており、LLM の注意をイメージ内の視覚的実体へと導く。
我々の実験は、VECapが新しい最先端のクロスドメインキャプション(転送可能)を設定できることを実証した。
論文 参考訳(メタデータ) (2023-07-31T09:47:06Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。