論文の概要: Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception
- arxiv url: http://arxiv.org/abs/2504.06666v1
- Date: Wed, 09 Apr 2025 08:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:22.617373
- Title: Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception
- Title(参考訳): Patch Matters: 局所知覚による訓練不要のきめ細かい画像強調
- Authors: Ruotian Peng, Haiying He, Yake Wei, Yandong Wen, Di Hu,
- Abstract要約: 高品質な画像キャプションは、クロスモーダルアプリケーションの性能向上に重要な役割を果たす。
近年,多モーダル大言語モデル (MLLM) を用いてキャプションを生成している。
しかし、現在のMLLMは細かい細部や幻覚に苦しむキャプションをしばしば生成している。
- 参考スコア(独自算出の注目度): 10.377899615199278
- License:
- Abstract: High-quality image captions play a crucial role in improving the performance of cross-modal applications such as text-to-image generation, text-to-video generation, and text-image retrieval. To generate long-form, high-quality captions, many recent studies have employed multimodal large language models (MLLMs). However, current MLLMs often produce captions that lack fine-grained details or suffer from hallucinations, a challenge that persists in both open-source and closed-source models. Inspired by Feature-Integration theory, which suggests that attention must focus on specific regions to integrate visual information effectively, we propose a \textbf{divide-then-aggregate} strategy. Our method first divides the image into semantic and spatial patches to extract fine-grained details, enhancing the model's local perception of the image. These local details are then hierarchically aggregated to generate a comprehensive global description. To address hallucinations and inconsistencies in the generated captions, we apply a semantic-level filtering process during hierarchical aggregation. This training-free pipeline can be applied to both open-source models (LLaVA-1.5, LLaVA-1.6, Mini-Gemini) and closed-source models (Claude-3.5-Sonnet, GPT-4o, GLM-4V-Plus). Extensive experiments demonstrate that our method generates more detailed, reliable captions, advancing multimodal description generation without requiring model retraining. The source code are available at https://github.com/GeWu-Lab/Patch-Matters
- Abstract(参考訳): 高品質な画像キャプションは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、テキスト・モーダル検索などのクロスモーダル・アプリケーションの性能向上に重要な役割を果たしている。
長文で高品質なキャプションを生成するために,近年,MLLM(Multimodal large language model)を用いた研究が数多く行われている。
しかし、現在のMLLMでは、細かな詳細を欠いたキャプションや幻覚に悩まされる場合が多く、これはオープンソースモデルとクローズドソースモデルの両方で持続する課題である。
視覚情報を効果的に統合するために、特定の領域に注意を向けなければならないという特徴分節理論に着想を得て、我々は「textbf{divide-then-aggregate} 戦略」を提案する。
提案手法は,まずイメージを意味的および空間的パッチに分割し,詳細な詳細を抽出し,画像の局所的知覚を高める。
これらの局所的な詳細は階層的に集約され、包括的なグローバルな記述を生成する。
生成したキャプションの幻覚や矛盾に対処するために,階層的集約中に意味レベルのフィルタリングプロセスを適用する。
このトレーニングフリーパイプラインは、オープンソースモデル(LLaVA-1.5, LLaVA-1.6, Mini-Gemini)とクローズドソースモデル(Claude-3.5-Sonnet, GPT-4o, GLM-4V-Plus)の両方に適用できる。
大規模な実験により,本手法はより詳細で信頼性の高いキャプションを生成し,モデル再訓練を必要とせず多モーダル記述の生成を推し進めることを示した。
ソースコードはhttps://github.com/GeWu-Lab/Patch-Mattersで入手できる。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models [44.578308186225826]
最近のオープンボキャブラリ検出器は、豊富な領域レベルのアノテートデータで有望な性能を達成する。
画像ごとに画像レベルの詳細なキャプションを生成することにより,大規模言語モデルと共用するオープン語彙検出器により,性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-31T08:27:31Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。