論文の概要: FlexCap: Generating Rich, Localized, and Flexible Captions in Images
- arxiv url: http://arxiv.org/abs/2403.12026v1
- Date: Mon, 18 Mar 2024 17:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:01:22.196895
- Title: FlexCap: Generating Rich, Localized, and Flexible Captions in Images
- Title(参考訳): FlexCap: 画像にリッチ、ローカライズ、フレキシブルなキャプションを生成する
- Authors: Debidatta Dwibedi, Vidhi Jain, Jonathan Tompson, Andrew Zisserman, Yusuf Aytar,
- Abstract要約: 可変長の領域固有記述を生成できる多機能な$textitflexible-captioning$ Vision-Language Model(VLM)を導入する。
モデルであるFlexCapは、入力バウンディングボックスのための長さ条件付きキャプションを生成するように訓練されている。
これにより、簡潔なオブジェクトラベルから詳細なキャプションまで、その出力の情報密度を制御できる。
- 参考スコア(独自算出の注目度): 54.796523366320486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a versatile $\textit{flexible-captioning}$ vision-language model (VLM) capable of generating region-specific descriptions of varying lengths. The model, FlexCap, is trained to produce length-conditioned captions for input bounding boxes, and this allows control over the information density of its output, with descriptions ranging from concise object labels to detailed captions. To achieve this we create large-scale training datasets of image region descriptions of varying length, starting from captioned images. This flexible-captioning capability has several valuable applications. First, FlexCap demonstrates superior performance in dense captioning tasks on the Visual Genome dataset. Second, a visual question answering (VQA) system can be built by employing FlexCap to generate localized descriptions as inputs to a large language model. The resulting system achieves state-of-the-art zero-shot performance on a number of VQA datasets. We also demonstrate a $\textit{localize-then-describe}$ approach with FlexCap can be better at open-ended object detection than a $\textit{describe-then-localize}$ approach with other VLMs. We highlight a novel characteristic of FlexCap, which is its ability to extract diverse visual information through prefix conditioning. Finally, we qualitatively demonstrate FlexCap's broad applicability in tasks such as image labeling, object attribute recognition, and visual dialog. Project webpage: https://flex-cap.github.io .
- Abstract(参考訳): 様々な長さの領域固有の記述を生成できる汎用的な$\textit{flexible-captioning}$ Vision-Language Model (VLM)を導入する。
モデルであるFlexCapは、入力バウンディングボックスのための長さ条件付きキャプションを生成するように訓練されており、これにより、簡潔なオブジェクトラベルから詳細なキャプションまで、その出力の情報密度を制御できる。
これを実現するために、キャプション付き画像から、長さの異なる画像領域記述の大規模なトレーニングデータセットを作成する。
この柔軟なカプセル化機能には、いくつかの価値のある応用がある。
まず、FlexCapはVisual Genomeデータセットの高密度キャプションタスクにおいて優れたパフォーマンスを示す。
第二に、視覚的質問応答(VQA)システムはFlexCapを利用して、大きな言語モデルへの入力として局所化された記述を生成することができる。
得られたシステムは、多数のVQAデータセット上で最先端のゼロショット性能を達成する。
また、FlexCapを使った$\textit{localize-then-describe}$アプローチは、他のVLMによる$\textit{describe-then-localize}$アプローチよりも、オープンなオブジェクト検出に優れていることを示す。
我々は,プレフィックス条件付けによって様々な視覚情報を抽出するFlexCapの特徴を強調した。
最後に、画像ラベリング、オブジェクト属性認識、ビジュアルダイアログといったタスクにおいてFlexCapの幅広い適用性を質的に示す。
プロジェクトWebページ: https://flex-cap.github.io 。
関連論文リスト
- Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。