論文の概要: DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
- arxiv url: http://arxiv.org/abs/2506.24102v1
- Date: Mon, 30 Jun 2025 17:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.182605
- Title: DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
- Title(参考訳): DenseWorld-1M:Dense Grounded Caption in the Real World
- Authors: Xiangtai Li, Tao Zhang, Yanwei Li, Haobo Yuan, Shihao Chen, Yikang Zhou, Jiahao Meng, Yueyi Sun, Shilin Xu, Lu Qi, Tianheng Cheng, Yi Lin, Zilong Huang, Wenhao Huang, Jiashi Feng, Guang Shi,
- Abstract要約: 我々はDenseWorld-1Mを紹介した。
オープンワールド認識,詳細なオブジェクトキャプション生成,高密度キャプションマージを含む3段階ラベリングパイプラインを設計する。
ラベル付けプロセスの高速化とキャプション品質の向上を目的として, 詳細領域キャプションモデルと空間キャプションマージモデルという2つのVLMモデルを提案する。
- 参考スコア(独自算出の注目度): 68.39362698871503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate a complex understanding of scenes, benefiting from large-scale and high-quality datasets. Most existing caption datasets lack the ground locations and relations for visual entities. Several grounded caption datasets face the problems of missing detailed descriptions, relations, and massive object descriptions on high-resolution images. To fill this gap for the community, we present DenseWorld-1M, the first massive, detailed, dense grounded caption dataset in the real world. We design a three-stage labeling pipeline, containing open-world perception, detailed object caption generation, and dense caption merging. The first stage obtains entity-level masks and labels. The second stage generates the object-level, detailed captions with the guidance of masks and labels from the first stage. The final stage merges object captions and masks into spatial and relational dense captions. To accelerate the labeling process and improve caption quality, we present two VLM models: the Detailed Region Caption model and the Spatial Caption Merging model. Extensive experiments on various settings, including vision-language understanding, visual grounding, and region caption generation, demonstrate the effectiveness of our DenseWorld-1M dataset and labeling models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、大規模かつ高品質なデータセットの恩恵を受けながら、シーンの複雑な理解を示す。
既存のキャプションデータセットのほとんどは、視覚的エンティティの地上位置と関係性を欠いている。
いくつかのグラウンドドキャプションデータセットは、高解像度画像上の詳細な記述、関係、および大量のオブジェクト記述の欠如の問題に直面している。
このギャップを埋めるために、我々はDenseWorld-1Mを紹介します。
オープンワールド認識,詳細なオブジェクトキャプション生成,高密度キャプションマージを含む3段階ラベリングパイプラインを設計する。
第1段階は、エンティティレベルのマスクとラベルを取得する。
第2ステージは、第1ステージからマスクとラベルのガイダンスで、オブジェクトレベルの詳細なキャプションを生成する。
最終段階は、オブジェクトキャプションとマスクを空間的および関係的な密接なキャプションにマージする。
ラベル付けプロセスの高速化とキャプション品質の向上を目的として, 詳細領域キャプションモデルと空間キャプションマージモデルという2つのVLMモデルを提案する。
DenseWorld-1Mデータセットとラベルモデルの有効性を示すために,視覚言語理解,視覚的接地,領域キャプション生成など,さまざまな設定に関する大規模な実験を行った。
関連論文リスト
- Describe Anything: Detailed Localized Image and Video Captioning [89.37016119012068]
Describe Anything Model (DAM) について紹介する。
そこで我々は,高品質なDLCデータの不足に対処するために,半教師付き学習(SSL)ベースのデータパイプライン(DLC-SDP)を提案する。
DAMは、キーワードレベル、フレーズレベル、詳細なマルチ文ローカライズされた画像とビデオキャプションにまたがる7つのベンチマークに、新しい最先端のベンチマークを設定する。
論文 参考訳(メタデータ) (2025-04-22T17:51:41Z) - URECA: Unique Region Caption Anything [29.363967361960043]
地域レベルのキャプションは、特徴を強調しながら、特定の画像領域の自然言語記述を生成することを目的としている。
マルチグラニュラリティ領域キャプションに適した大規模データセットであるURECAデータセットを紹介する。
多粒度領域を効果的に符号化する新しいキャプションモデルであるURECAを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:44Z) - LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models [44.578308186225826]
最近のオープンボキャブラリ検出器は、豊富な領域レベルのアノテートデータで有望な性能を達成する。
画像ごとに画像レベルの詳細なキャプションを生成することにより,大規模言語モデルと共用するオープン語彙検出器により,性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-31T08:27:31Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。