論文の概要: DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
- arxiv url: http://arxiv.org/abs/2506.24102v1
- Date: Mon, 30 Jun 2025 17:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.182605
- Title: DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
- Title(参考訳): DenseWorld-1M:Dense Grounded Caption in the Real World
- Authors: Xiangtai Li, Tao Zhang, Yanwei Li, Haobo Yuan, Shihao Chen, Yikang Zhou, Jiahao Meng, Yueyi Sun, Shilin Xu, Lu Qi, Tianheng Cheng, Yi Lin, Zilong Huang, Wenhao Huang, Jiashi Feng, Guang Shi,
- Abstract要約: 我々はDenseWorld-1Mを紹介した。
オープンワールド認識,詳細なオブジェクトキャプション生成,高密度キャプションマージを含む3段階ラベリングパイプラインを設計する。
ラベル付けプロセスの高速化とキャプション品質の向上を目的として, 詳細領域キャプションモデルと空間キャプションマージモデルという2つのVLMモデルを提案する。
- 参考スコア(独自算出の注目度): 68.39362698871503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate a complex understanding of scenes, benefiting from large-scale and high-quality datasets. Most existing caption datasets lack the ground locations and relations for visual entities. Several grounded caption datasets face the problems of missing detailed descriptions, relations, and massive object descriptions on high-resolution images. To fill this gap for the community, we present DenseWorld-1M, the first massive, detailed, dense grounded caption dataset in the real world. We design a three-stage labeling pipeline, containing open-world perception, detailed object caption generation, and dense caption merging. The first stage obtains entity-level masks and labels. The second stage generates the object-level, detailed captions with the guidance of masks and labels from the first stage. The final stage merges object captions and masks into spatial and relational dense captions. To accelerate the labeling process and improve caption quality, we present two VLM models: the Detailed Region Caption model and the Spatial Caption Merging model. Extensive experiments on various settings, including vision-language understanding, visual grounding, and region caption generation, demonstrate the effectiveness of our DenseWorld-1M dataset and labeling models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、大規模かつ高品質なデータセットの恩恵を受けながら、シーンの複雑な理解を示す。
既存のキャプションデータセットのほとんどは、視覚的エンティティの地上位置と関係性を欠いている。
いくつかのグラウンドドキャプションデータセットは、高解像度画像上の詳細な記述、関係、および大量のオブジェクト記述の欠如の問題に直面している。
このギャップを埋めるために、我々はDenseWorld-1Mを紹介します。
オープンワールド認識,詳細なオブジェクトキャプション生成,高密度キャプションマージを含む3段階ラベリングパイプラインを設計する。
第1段階は、エンティティレベルのマスクとラベルを取得する。
第2ステージは、第1ステージからマスクとラベルのガイダンスで、オブジェクトレベルの詳細なキャプションを生成する。
最終段階は、オブジェクトキャプションとマスクを空間的および関係的な密接なキャプションにマージする。
ラベル付けプロセスの高速化とキャプション品質の向上を目的として, 詳細領域キャプションモデルと空間キャプションマージモデルという2つのVLMモデルを提案する。
DenseWorld-1Mデータセットとラベルモデルの有効性を示すために,視覚言語理解,視覚的接地,領域キャプション生成など,さまざまな設定に関する大規模な実験を行った。
関連論文リスト
- Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - Describe Anything: Detailed Localized Image and Video Captioning [89.37016119012068]
Describe Anything Model (DAM) について紹介する。
そこで我々は,高品質なDLCデータの不足に対処するために,半教師付き学習(SSL)ベースのデータパイプライン(DLC-SDP)を提案する。
DAMは、キーワードレベル、フレーズレベル、詳細なマルチ文ローカライズされた画像とビデオキャプションにまたがる7つのベンチマークに、新しい最先端のベンチマークを設定する。
論文 参考訳(メタデータ) (2025-04-22T17:51:41Z) - URECA: Unique Region Caption Anything [29.363967361960043]
地域レベルのキャプションは、特徴を強調しながら、特定の画像領域の自然言語記述を生成することを目的としている。
マルチグラニュラリティ領域キャプションに適した大規模データセットであるURECAデータセットを紹介する。
多粒度領域を効果的に符号化する新しいキャプションモデルであるURECAを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:44Z) - LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models [44.578308186225826]
最近のオープンボキャブラリ検出器は、豊富な領域レベルのアノテートデータで有望な性能を達成する。
画像ごとに画像レベルの詳細なキャプションを生成することにより,大規模言語モデルと共用するオープン語彙検出器により,性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-31T08:27:31Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。