論文の概要: CompCap: Improving Multimodal Large Language Models with Composite Captions
- arxiv url: http://arxiv.org/abs/2412.05243v1
- Date: Fri, 06 Dec 2024 18:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:55.752067
- Title: CompCap: Improving Multimodal Large Language Models with Composite Captions
- Title(参考訳): CompCap: 複合キャプションによるマルチモーダル大言語モデルの改善
- Authors: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He,
- Abstract要約: 合成画像 (CI) は、カメラに直接キャプチャされるのではなく、チャート、ポスター、スクリーンショットなどの複数のビジュアル要素をマージすることによって生成される合成ビジュアルである。
現在のMLLM(Multimodal Large Language Models)は、CIを正確に理解する上で重要な課題に直面している。
LLM(Large Language Models)と自動化ツールを活用するフレキシブルなフレームワークであるComp Captions(CompCap)を導入し、CIを正確なキャプションと詳細なキャプションで合成する。
- 参考スコア(独自算出の注目度): 38.26649194109858
- License:
- Abstract: How well can Multimodal Large Language Models (MLLMs) understand composite images? Composite images (CIs) are synthetic visuals created by merging multiple visual elements, such as charts, posters, or screenshots, rather than being captured directly by a camera. While CIs are prevalent in real-world applications, recent MLLM developments have primarily focused on interpreting natural images (NIs). Our research reveals that current MLLMs face significant challenges in accurately understanding CIs, often struggling to extract information or perform complex reasoning based on these images. We find that existing training data for CIs are mostly formatted for question-answer tasks (e.g., in datasets like ChartQA and ScienceQA), while high-quality image-caption datasets, critical for robust vision-language alignment, are only available for NIs. To bridge this gap, we introduce Composite Captions (CompCap), a flexible framework that leverages Large Language Models (LLMs) and automation tools to synthesize CIs with accurate and detailed captions. Using CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs across six CI types. We validate the effectiveness of CompCap-118K by supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K significantly enhances MLLMs' understanding of CIs, yielding average gains of 1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はどのように複合画像を理解することができるのか?
合成画像 (CI) は、カメラに直接キャプチャされるのではなく、チャート、ポスター、スクリーンショットなどの複数のビジュアル要素をマージすることによって生成される合成ビジュアルである。
CIは現実世界のアプリケーションで広く使われているが、最近のMLLM開発は主に自然画像(NI)の解釈に焦点を当てている。
我々の研究によると、現在のMLLMはCIを正確に理解する上で重大な課題に直面しており、しばしば情報を抽出したり、これらの画像に基づいて複雑な推論を行うのに苦労している。
既存のCIトレーニングデータは、主に質問応答タスク(例えば、ChartQAやScienceQAのようなデータセット)にフォーマットされているのに対して、高画質の画像キャプチャデータセットは、堅牢な視覚言語アライメントに不可欠なもので、NIでのみ利用可能です。
このギャップを埋めるために、LLM(Large Language Models)と自動化ツールを活用する柔軟なフレームワークであるComp Captions(CompCap)を導入し、CIを正確かつ詳細なキャプションで合成する。
CompCapを使用して、6つのCIタイプにわたる118Kイメージキャプチャペアを含むデータセットであるCompCap-118Kをキュレートする。
教師付き微調整MLLM(xGen-MM-inst)を用いてCompCap-118Kの有効性を検証した。
-4BおよびLLaVA-NeXT-Vicuna-7B/13B。
CompCap-118Kは、CIに対するMLLMの理解を著しく向上させ、11ベンチマークの平均利得は1.7%、2.0%、そして2.9%となった。
関連論文リスト
- TPCap: Unlocking Zero-Shot Image Captioning with Trigger-Augmented and Multi-Modal Purification Modules [14.085196457421121]
TPCapは、ゼロショット画像キャプションのためのトリガー拡張およびマルチモーダル浄化フレームワークである。
0.82Mのトレーニング可能なパラメータとトレーニングしか持たず、TPCapは最先端のモデルに匹敵する競争性能を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:16:03Z) - ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。
本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。
提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文 参考訳(メタデータ) (2024-12-09T21:44:02Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - CapsFusion: Rethinking Image-Text Data at Scale [32.334143749598766]
本稿では,ウェブベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するためのCapsFusionを提案する。
実験の結果,CapsFusionキャプションはモデル性能において既存のキャプションよりも圧倒的に優れていた。
論文 参考訳(メタデータ) (2023-10-31T15:31:39Z) - Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。