論文の概要: Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning
- arxiv url: http://arxiv.org/abs/2501.13893v1
- Date: Thu, 23 Jan 2025 18:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:40.484743
- Title: Pix2Cap-COCO: Advancing Visual Comprehension via Pixel-Level Captioning
- Title(参考訳): Pix2Cap-COCO:Pixel-Level Captioningによる視覚的理解の向上
- Authors: Zuyao You, Junke Wang, Lingyu Kong, Bo He, Zuxuan Wu,
- Abstract要約: Pix2Cap-COCOは,微細な視覚的理解を促進するために設計された,最初のパノプティカルピクセルレベルのキャプションデータセットである。
このアプローチは167,254の詳細なキャプションを持ち、1キャプションあたり平均22.94語である。
また、画像中のインスタンスを識別し、各インスタンスについて詳細な記述を同時に提供するために、モデルに挑戦する、新しいタスクであるパノプティックセグメンテーション・キャプション(panoptic segmentation-captioning)を導入する。
- 参考スコア(独自算出の注目度): 36.33160773256632
- License:
- Abstract: We present Pix2Cap-COCO, the first panoptic pixel-level caption dataset designed to advance fine-grained visual understanding. To achieve this, we carefully design an automated annotation pipeline that prompts GPT-4V to generate pixel-aligned, instance-specific captions for individual objects within images, enabling models to learn more granular relationships between objects and their contexts. This approach results in 167,254 detailed captions, with an average of 22.94 words per caption. Building on Pix2Cap-COCO, we introduce a novel task, panoptic segmentation-captioning, which challenges models to recognize instances in an image and provide detailed descriptions for each simultaneously. To benchmark this task, we design a robust baseline based on X-Decoder. The experimental results demonstrate that Pix2Cap-COCO is a particularly challenging dataset, as it requires models to excel in both fine-grained visual understanding and detailed language generation. Furthermore, we leverage Pix2Cap-COCO for Supervised Fine-Tuning (SFT) on large multimodal models (LMMs) to enhance their performance. For example, training with Pix2Cap-COCO significantly improves the performance of GPT4RoI, yielding gains in CIDEr +1.4%, ROUGE +0.4%, and SPICE +0.5% on Visual Genome dataset, and strengthens its region understanding ability on the ViP-BENCH, with an overall improvement of +5.1%, including notable increases in recognition accuracy +11.2% and language generation quality +22.2%.
- Abstract(参考訳): Pix2Cap-COCOは,微細な視覚的理解を促進するために設計された,最初のパノプティカルピクセルレベルのキャプションデータセットである。
これを実現するために,GPT-4Vに画像内の個々のオブジェクトのインスタンス固有のキャプションを生成する自動アノテーションパイプラインを慎重に設計し,オブジェクトとそのコンテキスト間のより詳細な関係を学習する。
このアプローチは167,254の詳細なキャプションを持ち、1キャプションあたり平均22.94語である。
Pix2Cap-COCOをベースとして,画像中のインスタンスを識別し,それぞれに詳細な記述を同時に提供する,新しいタスクであるパノプティックセグメンテーションキャプション(panoptic segmentation-captioning)を導入する。
このタスクをベンチマークするために、X-Decoderをベースとしたロバストなベースラインを設計する。
実験結果はPix2Cap-COCOが特に難しいデータセットであることを示しており、詳細な視覚的理解と詳細な言語生成の両方において、モデルが優れていることを要求している。
さらに,大型マルチモーダルモデル(LMM)上でのSFT(Supervised Fine-Tuning)に対するPix2Cap-COCOの利用により,性能が向上する。
例えば、Pix2Cap-COCOを使用したトレーニングでは、GPT4RoIの性能が大幅に向上し、CIDEr +1.4%、ROUGE +0.4%、SPICE +0.5%がVisual Genomeデータセット上で向上し、VP-BENCHでの領域理解能力が強化され、認識精度+11.2%、言語生成品質+22.2%が向上した。
関連論文リスト
- TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens [9.453667770656644]
汎用, OCR, 接地作業において, 画像トークンの16倍の精度で, きめ細かな認識と, 最先端の性能を示すバイリンガルLVLMであるTextHawk2を提案する。
我々は、LVLMコトレーニングを通じて視覚エンコーダを強化し、中国のOCRや接地のようなこれまで目に見えないタスクの可能性を解き放つ。
我々はTextHawk2を複数のベンチマークで評価し、継続的に優れたパフォーマンスを提供し、同様のスケールのクローズドソースモデルより優れています。
論文 参考訳(メタデータ) (2024-10-07T17:58:35Z) - HoloHisto: End-to-end Gigapixel WSI Segmentation with 4K Resolution Sequential Tokenization [21.1691961979094]
デジタル病理学では、ディープラーニングに基づくイメージセグメンテーションの伝統的な方法は通常、2段階のプロセスを含む。
本稿では,ギガピクセルWSI上でのエンドツーエンドのセグメンテーションを実現するために,ホロヒスト法(HoloHisto)セグメンテーション法を提案する。
HoloHistoプラットフォームでは、超高解像度の4Kサンプルをランダムに公開しています。
論文 参考訳(メタデータ) (2024-07-03T17:49:31Z) - PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation [110.10627872744254]
PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。
PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
論文 参考訳(メタデータ) (2024-03-07T17:41:37Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration [9.57539651520755]
CoFiI2Pは、粗い方法で通信を抽出する新しいI2P登録ネットワークである。
粗いマッチングフェーズでは、均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールが使用される。
微細マッチングモジュールにおいて、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセル対を確立する。
論文 参考訳(メタデータ) (2023-09-26T04:32:38Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。