論文の概要: URECA: Unique Region Caption Anything
- arxiv url: http://arxiv.org/abs/2504.05305v1
- Date: Mon, 07 Apr 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:25.216652
- Title: URECA: Unique Region Caption Anything
- Title(参考訳): URECA: ユニークなリージョンキャプション
- Authors: Sangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim,
- Abstract要約: 地域レベルのキャプションは、特徴を強調しながら、特定の画像領域の自然言語記述を生成することを目的としている。
マルチグラニュラリティ領域キャプションに適した大規模データセットであるURECAデータセットを紹介する。
多粒度領域を効果的に符号化する新しいキャプションモデルであるURECAを提案する。
- 参考スコア(独自算出の注目度): 29.363967361960043
- License:
- Abstract: Region-level captioning aims to generate natural language descriptions for specific image regions while highlighting their distinguishing features. However, existing methods struggle to produce unique captions across multi-granularity, limiting their real-world applicability. To address the need for detailed region-level understanding, we introduce URECA dataset, a large-scale dataset tailored for multi-granularity region captioning. Unlike prior datasets that focus primarily on salient objects, URECA dataset ensures a unique and consistent mapping between regions and captions by incorporating a diverse set of objects, parts, and background elements. Central to this is a stage-wise data curation pipeline, where each stage incrementally refines region selection and caption generation. By leveraging Multimodal Large Language Models (MLLMs) at each stage, our pipeline produces distinctive and contextually grounded captions with improved accuracy and semantic diversity. Building upon this dataset, we present URECA, a novel captioning model designed to effectively encode multi-granularity regions. URECA maintains essential spatial properties such as position and shape through simple yet impactful modifications to existing MLLMs, enabling fine-grained and semantically rich region descriptions. Our approach introduces dynamic mask modeling and a high-resolution mask encoder to enhance caption uniqueness. Experiments show that URECA achieves state-of-the-art performance on URECA dataset and generalizes well to existing region-level captioning benchmarks.
- Abstract(参考訳): 地域レベルのキャプションは、特徴を強調しながら、特定の画像領域の自然言語記述を生成することを目的としている。
しかし、既存の手法では、複数の粒度にまたがる独自のキャプションの作成に苦労し、現実の応用性を制限している。
地域レベルでの詳細な理解の必要性に対処するために,多粒度領域キャプションに適した大規模データセットであるURECAデータセットを導入する。
主に健全なオブジェクトに焦点を当てた以前のデータセットとは異なり、URECAデータセットは、さまざまなオブジェクト、部品、バックグラウンド要素のセットを組み込むことで、リージョンとキャプションのユニークな一貫したマッピングを保証する。
中心となるのは、各ステージがリージョンの選択とキャプション生成を漸進的に洗練する、段階的なデータキュレーションパイプラインである。
各段階でMLLM(Multimodal Large Language Models)を活用することで、パイプラインは、精度と意味の多様性を向上し、特徴的で文脈的に根ざしたキャプションを生成する。
このデータセットに基づいて,多粒度領域を効果的に符号化する新しいキャプションモデルであるURECAを提案する。
URECAは、既存のMLLMに単純かつ衝撃的な修正を加えることで、位置や形状などの重要な空間特性を維持しており、きめ細かな、意味的に豊かな領域の記述を可能にしている。
本研究では,動的マスクモデリングと高分解能マスクエンコーダを導入し,キャプションの特異性を向上する。
URECAはURECAデータセット上で最先端のパフォーマンスを達成し、既存の地域レベルのキャプションベンチマークによく適合することを示す実験である。
関連論文リスト
- A dual contrastive framework [7.358205057611624]
地域レベルの視覚理解は、大規模視覚言語モデルにとって大きな課題となる。
潜在空間のきめ細かいアライメントによる領域レベルの理解を高めるためのフレームワークであるAlignCapを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:45:18Z) - FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Zero-shot Text-guided Infinite Image Synthesis with LLM guidance [2.531998650341267]
解像度とコンテキストの多様性を備えたテキストイメージのペアデータセットが不足している。
テキストに基づく画像の拡張には、グローバルコヒーレンスとリッチなローカルコンテキスト理解が必要である。
本稿では,大域的コヒーレンスと局所的文脈理解の両面において,Large Language Models (LLM) を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T15:10:01Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。