論文の概要: MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.03927v1
- Date: Thu, 05 Dec 2024 07:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:58.637136
- Title: MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models
- Title(参考訳): MegaCOIN:視覚言語モデルにおける中グレードカラー知覚の強化
- Authors: Ming-Chang Chiu, Shicheng Wen, Pin-Yu Chen, Xuezhe Ma,
- Abstract要約: MegaCOINは、さまざまなコンテキスト属性を持つEmphrealイメージに基づいた、高品質な人間ラベル付きデータセットである。
MegaCOIN-Instructはビジョン言語モデルの教師付き微調整データセットとして機能し、MegaCOIN-BenchはスタンドアロンのQAデータセットとして使用できる注釈付きテストセットである。
- 参考スコア(独自算出の注目度): 60.1668189937952
- License:
- Abstract: In vision-language models (VLMs), the ability to perceive and interpret color and physical environment is crucial for achieving contextually accurate understanding and interaction. However, despite advances in multimodal modeling, there remains a significant lack of specialized datasets that rigorously evaluate a model's capacity to discern subtle color variations and spatial context -- critical elements for situational comprehension and reliable deployment across real-world applications. Toward that goal, we curate MegaCOIN, a high-quality, human-labeled dataset based on \emph{real} images with various contextual attributes. MegaCOIN consists of two parts: MegaCOIN-Instruct, which serves as a supervised fine-tuning (SFT) dataset for VLMs; and MegaCOIN-Bench, an annotated test set that can be used as a stand-alone QA dataset. MegaCOIN~provides three annotated features for 220,000 real images: foreground color, background color, and description of an object's physical environment, constituting 660k human annotations. In addition, MegaCOIN can be applied to benchmark domain generalization (DG) algorithms. We explore benchmarking DG methods in the linear probing setup for VLM and show some new insights. Last but not least, we show that VLMs, including GPT-4o, have subpar color recognition capabilities, and fine-tuning with MegaCOIN can result in improved performance on visual evaluation tasks. In certain cases, MegaCOIN fine-tuned small-scale opensource models such as LLaVA and Bunny can outperform closed-source GPT-4o. We hope the utilities of MegaCOIN can shed light on the directions VLMs can improve and provide a more complex platform for domain generalization algorithms.
- Abstract(参考訳): 視覚言語モデル(VLM)では、文脈的に正確な理解と相互作用を達成するために、色と物理的環境を知覚し、解釈する能力が不可欠である。
しかし、マルチモーダルモデリングの進歩にもかかわらず、微妙な色の変化と空間的コンテキストを識別するモデルの能力を厳格に評価する特別なデータセットが、現実のアプリケーションにまたがる状況を理解する上で重要な要素として残されている。
この目標に向けて、さまざまなコンテキスト属性を持つ \emph{real} 画像に基づいて、高品質で人間ラベル付きデータセットであるMegaCOINをキュレートする。
MegaCOIN-InstructはVLMの教師付き微調整(SFT)データセットとして機能し、MegaCOIN-BenchはスタンドアロンのQAデータセットとして使用できる注釈付きテストセットである。
MegaCOIN~は、前景の色、背景の色、および660kの人間のアノテーションを構成するオブジェクトの物理的環境の記述という、220,000の実際の画像に対して、アノテーション付きの3つの特徴を提供します。
さらに、MegaCOINはベンチマーク領域一般化(DG)アルゴリズムにも適用できる。
本稿では,VLMの線形探索におけるDG手法のベンチマークについて検討し,新しい知見を示す。
最後に, GPT-4o を含む VLM は色認識能力が低いこと, MegaCOIN による微調整により視覚評価タスクの性能が向上することを示す。
場合によっては、LLaVAやBunnyのような細調整の小さなオープンソースモデルは、クローズドソースのGPT-4oより優れている。
MegaCOINのユーティリティは、VLMが改善し、ドメインの一般化アルゴリズムのためのより複雑なプラットフォームを提供できることを願っている。
関連論文リスト
- Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。
MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。
さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文 参考訳(メタデータ) (2024-06-25T17:55:11Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models [55.267193180769794]
Mini-Geminiはマルチモーダルビジョン言語モデル(VLM)を強化するフレームワーク
Mini-Gemini は 2B から 34B までの一連の高密度および高密度な MoE 言語モデル (LLM) をサポートしている。
いくつかのゼロショットベンチマークで主要なパフォーマンスを達成でき、開発済みのプライベートモデルを超えている。
論文 参考訳(メタデータ) (2024-03-27T17:59:04Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging
Cross-Modal Attention with Large Language Models [17.488420164181463]
本稿では,自律走行車(AV)の視覚的接地に対処する高度なエンコーダデコーダフレームワークを提案する。
我々のContext-Aware Visual Grounding(CAVG)モデルは、5つのコアエンコーダ-Text, Image, Context, Cross-Modal-をマルチモーダルデコーダと統合した高度なシステムである。
論文 参考訳(メタデータ) (2023-12-06T15:14:30Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models [30.20915403608803]
Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。