論文の概要: FlexCap: Describe Anything in Images in Controllable Detail
- arxiv url: http://arxiv.org/abs/2403.12026v2
- Date: Tue, 28 Jan 2025 23:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:37.651845
- Title: FlexCap: Describe Anything in Images in Controllable Detail
- Title(参考訳): FlexCap: コントロール可能な詳細で画像に何かを記述する
- Authors: Debidatta Dwibedi, Vidhi Jain, Jonathan Tompson, Andrew Zisserman, Yusuf Aytar,
- Abstract要約: 様々な長さの地域固有の記述を生成する視覚言語モデルFlexCapを紹介する。
実験では、画像ラベリング、オブジェクト属性認識、ビジュアルダイアログなどのタスクにFlexCapのユーティリティを例示する。
- 参考スコア(独自算出の注目度): 54.796523366320486
- License:
- Abstract: We introduce FlexCap, a vision-language model that generates region-specific descriptions of varying lengths. FlexCap is trained to produce length-conditioned captions for input boxes, enabling control over information density, with descriptions ranging from concise object labels to detailed captions. To achieve this, we create large-scale training datasets of image region descriptions with varying lengths from captioned web images. We demonstrate FlexCap's effectiveness in several applications: first, it achieves strong performance in dense captioning tasks on the Visual Genome dataset. Second, we show how FlexCap's localized descriptions can serve as input to a large language model to create a visual question answering (VQA) system, achieving state-of-the-art zero-shot performance on multiple VQA benchmarks. Our experiments illustrate FlexCap's utility for tasks including image labeling, object attribute recognition, and visual dialog. Project webpage: https://flex-cap.github.io .
- Abstract(参考訳): 様々な長さの地域固有の記述を生成する視覚言語モデルFlexCapを紹介する。
FlexCapは入力ボックスに長さ条件付きキャプションを生成し、簡潔なオブジェクトラベルから詳細なキャプションまで、情報密度の制御を可能にするように訓練されている。
これを実現するために、キャプション付きWeb画像から様々な長さの画像領域記述の大規模なトレーニングデータセットを作成する。
まず、Visual Genomeデータセット上の高密度キャプションタスクにおいて、高いパフォーマンスを達成する。
第二に、FlexCapのローカライズされた記述が、大規模な言語モデルへの入力としてどのように機能し、複数のVQAベンチマークで最先端のゼロショットパフォーマンスを達成する視覚的質問応答(VQA)システムを生成するかを示す。
実験では、画像ラベリング、オブジェクト属性認識、ビジュアルダイアログなどのタスクにFlexCapのユーティリティを例示する。
プロジェクトWebページ: https://flex-cap.github.io 。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning [108.12011636732674]
MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2023-08-25T07:32:34Z) - Transferable Decoding with Visual Entities for Zero-Shot Image
Captioning [45.855652838621936]
ViECapは、見えるシナリオと見えないシナリオの両方で記述を生成する、転送可能なデコードモデルである。
ViECap にはエンティティ対応のハードプロンプトが組み込まれており、LLM の注意をイメージ内の視覚的実体へと導く。
我々の実験は、VECapが新しい最先端のクロスドメインキャプション(転送可能)を設定できることを実証した。
論文 参考訳(メタデータ) (2023-07-31T09:47:06Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - Question-controlled Text-aware Image Captioning [41.53906032024941]
質問制御テキスト対応画像キャプチャ(Qc-TextCap)は、新しい課題である。
質問を制御信号として扱うことで、我々のモデルは、最先端のテキスト認識キャプションモデルよりも、より情報的で多様なキャプションを生成する。
GQAMは、マルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。
論文 参考訳(メタデータ) (2021-08-04T13:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。