Fugu-MT 論文翻訳(概要): FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

論文の概要: FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

arxiv url: http://arxiv.org/abs/2409.13540v1
Date: Fri, 20 Sep 2024 14:33:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:41:58.241911
Title: FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs
Title（参考訳）: FullAnno:MLLMの画像理解を強化するデータエンジン
Authors: Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang,
Abstract要約: FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
参考スコア（独自算出の注目度）: 58.95386070800286
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have shown promise in a broad range of vision-language tasks with their strong reasoning and generalization capabilities. However, they heavily depend on high-quality data in the Supervised Fine-Tuning (SFT) phase. The existing approaches aim to curate high-quality data via GPT-4V, but they are not scalable due to the commercial nature of GPT-4V and the simplicity of the prompts used to instruct the model. To this end, we devised the FullAnno system, which is a data engine that can generate large-scale, high-quality, and fine-grained image annotations consisting of the category and position of objects, region descriptions, text information, as well as image dense captions. This engine is characterized by its cascade annotation process, which involves multiple expert models and employs rich prompts to instruct LLMs in generating dense image captions. We re-annotated the COCO and Visual Genome datasets using our FullAnno system, tripling the number of object annotations and increasing the length of the original image captions by a factor of 15. Experiments show that the regenerated annotation can significantly enhance the capabilities of LLaVA-v1.5 on several benchmarks. The re-annotated data are available at: https://arcana-project-page.github.io
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、その強力な推論と一般化機能を備えた幅広い視覚言語タスクにおいて、有望であることを示す。しかし、それらはSupervised Fine-Tuning (SFT) フェーズの高品質なデータに大きく依存している。既存のアプローチは、GPT-4Vによる高品質なデータのキュレートを目標としているが、GPT-4Vの商業的性質と、モデルを指示するために使用するプロンプトの単純さのため、スケーラビリティが低い。そこで我々は,オブジェクトのカテゴリと位置,地域記述,テキスト情報,および画像の高密度キャプションからなる,大規模で高品質できめ細かい画像アノテーションを生成可能なデータエンジンであるFullAnnoシステムを開発した。このエンジンは、複数の専門家モデルを含むカスケードアノテーションプロセスで特徴付けられ、濃密な画像キャプションを生成するためにLSMを指示するためにリッチなプロンプトを使用する。我々は、FullAnnoシステムを用いてCOCOおよびVisual Genomeデータセットを再注釈し、オブジェクトアノテーションの数を3倍にし、元の画像キャプションの長さを15。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。再注釈されたデータは、https://arcana-project-page.github.ioで入手できる。

関連論文リスト

HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-30T07:21:36Z)
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception [10.377899615199278]
高品質な画像キャプションは、クロスモーダルアプリケーションの性能向上に重要な役割を果たす。近年,多モーダル大言語モデル (MLLM) を用いてキャプションを生成している。しかし、現在のMLLMは細かい細部や幻覚に苦しむキャプションをしばしば生成している。
論文参考訳（メタデータ） (2025-04-09T08:07:46Z)
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。 DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。 DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文参考訳（メタデータ） (2025-03-10T22:53:56Z)
LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models [44.578308186225826]
最近のオープンボキャブラリ検出器は、豊富な領域レベルのアノテートデータで有望な性能を達成する。画像ごとに画像レベルの詳細なキャプションを生成することにより,大規模言語モデルと共用するオープン語彙検出器により,性能が向上することを示す。
論文参考訳（メタデータ） (2025-01-31T08:27:31Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文参考訳（メタデータ） (2024-05-29T13:54:12Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文参考訳（メタデータ） (2023-04-20T18:25:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。