論文の概要: BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs
- arxiv url: http://arxiv.org/abs/2407.03314v2
- Date: Thu, 27 Mar 2025 17:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:58.271712
- Title: BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs
- Title(参考訳): BACON:Bag-of-Concept Graphsによるイメージキャプションの明確化
- Authors: Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng,
- Abstract要約: 本稿では,VLM生成キャプションを関係,スタイル,テーマなどの構造化要素に分解するプロンプト手法であるBACONを提案する。
BACON方式のキャプションは,様々なモデルに適用した場合の明瞭度が向上し,従来は達成不可能であったタスクを達成できたり,既存のSOTAソリューションをトレーニングなしで超えることができた。
- 参考スコア(独自算出の注目度): 23.79611990949943
- License:
- Abstract: Advancements in large Vision-Language Models have brought precise, accurate image captioning, vital for advancing multi-modal image understanding and processing. Yet these captions often carry lengthy, intertwined contexts that are difficult to parse and frequently overlook essential cues, posing a great barrier for models like GroundingDINO and SDXL, which lack the strong text encoding and syntax analysis needed to fully leverage dense captions. To address this, we propose BACON, a prompting method that breaks down VLM-generated captions into disentangled, structured elements such as objects, relationships, styles, and themes. This approach not only minimizes confusion from handling complex contexts but also allows for efficient transfer into a JSON dictionary, enabling models without linguistic processing capabilities to easily access key information. We annotated 100,000 image-caption pairs using BACON with GPT-4V and trained an LLaVA captioner on this dataset, enabling it to produce BACON-style captions without relying on costly GPT-4V. Evaluations of overall quality, precision, and recall-as well as user studies-demonstrate that the resulting caption model consistently outperforms other SOTA VLM models in generating high-quality captions. Besides, we show that BACON-style captions exhibit better clarity when applied to various models, enabling them to accomplish previously unattainable tasks or surpass existing SOTA solutions without training. For example, BACON-style captions help GroundingDINO achieve 1.51x higher recall scores on open-vocabulary object detection tasks compared to leading methods.
- Abstract(参考訳): 大規模なビジョン・ランゲージ・モデルの進歩は、正確で正確な画像キャプションをもたらし、マルチモーダル画像の理解と処理に欠かせないものとなった。
しかし、これらのキャプションは、しばしば、解析が困難で、しばしば本質的な手がかりを見落としてしまう長いコンテキストを持ち、高密度キャプションを完全に活用するために必要な強力なテキストエンコーディングと構文解析の欠如であるGroundingDINOやSDXLのようなモデルにとって、大きな障壁となる。
そこで本稿では,VLM生成したキャプションをオブジェクト,関係,スタイル,テーマなどの非絡み合った要素に分解するプロンプト手法であるBACONを提案する。
このアプローチは、複雑なコンテキストの処理から混乱を最小限に抑えるだけでなく、JSON辞書への効率的な転送を可能にし、言語処理能力のないモデルでキー情報を容易にアクセスできるようにする。
BACONとGPT-4Vを併用して10万枚の画像キャプチャ対に注釈を付け,このデータセット上でLLaVAキャプタを訓練し,高価なGPT-4Vを使わずにBACONスタイルのキャプタを作成できるようにした。
全体的な品質、精度、リコールの評価とユーザスタディは、結果のキャプションモデルが高品質なキャプションを生成するために他のSOTA VLMモデルよりも一貫して優れていることを実証している。
さらに,BACON方式のキャプションは,様々なモデルに適用した場合の明瞭さが向上し,従来は達成不可能であったタスクを達成できたり,既存のSOTAソリューションをトレーニングなしで超えることができた。
例えば、BACONスタイルのキャプションは、グラウンディングディーノがリードメソッドと比較してオープン語彙オブジェクト検出タスクのリコールスコアを1.51倍向上させるのに役立つ。
関連論文リスト
- COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation [38.09277249986138]
COCONut-PanCapデータセットは、細粒度で領域レベルのキャプションをパン光学セグメンテーションマスクに格納する。
COCONut-PanCapは、画像理解のための視覚言語モデルのトレーニングの改善と、テキスト・ツー・イメージタスクのための生成モデルをサポートする。
論文 参考訳(メタデータ) (2025-02-04T18:59:46Z) - Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.054780489639793]
本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文 参考訳(メタデータ) (2024-12-11T06:21:33Z) - FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning [132.49090098391258]
IconQA(Icon Question Answering)の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) (2021-10-25T18:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。