Fugu-MT 論文翻訳(概要): VCoder: Versatile Vision Encoders for Multimodal Large Language Models

論文の概要: VCoder: Versatile Vision Encoders for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2312.14233v1
Date: Thu, 21 Dec 2023 18:49:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 16:58:33.405345
Title: VCoder: Versatile Vision Encoders for Multimodal Large Language Models
Title（参考訳）: VCoder: マルチモーダル大規模言語モデルのためのVersatile Vision Encoder
Authors: Jitesh Jain, Jianwei Yang, Humphrey Shi
Abstract要約: MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。 We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
参考スコア（独自算出の注目度）: 46.95488342139727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans possess the remarkable skill of Visual Perception, the ability to see and understand the seen, helping them make sense of the visual world and, in turn, reason. Multimodal Large Language Models (MLLM) have recently achieved impressive performance on vision-language tasks ranging from visual question-answering and image captioning to visual reasoning and image generation. However, when prompted to identify or count (perceive) the entities in a given image, existing MLLM systems fail. Working towards developing an accurate MLLM system for perception and reasoning, we propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs. We feed the VCoder with perception modalities such as segmentation or depth maps, improving the MLLM's perception abilities. Secondly, we leverage the images from COCO and outputs from off-the-shelf vision perception models to create our COCO Segmentation Text (COST) dataset for training and evaluating MLLMs on the object perception task. Thirdly, we introduce metrics to assess the object perception abilities in MLLMs on our COST dataset. Lastly, we provide extensive experimental evidence proving the VCoder's improved object-level perception skills over existing Multimodal LLMs, including GPT-4V. We open-source our dataset, code, and models to promote research. We open-source our code at https://github.com/SHI-Labs/VCoder
Abstract（参考訳）: 人間は視覚的な知覚の卓越したスキルを持ち、目に見えるものを見たり理解したりする能力を持ち、視覚の世界を理解するのに役立ち、そして理性を持っている。 MLLM(Multimodal Large Language Models)は近年,視覚的質問応答や画像キャプション,視覚的推論や画像生成など,視覚言語タスクにおける印象的なパフォーマンスを実現している。しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。知覚と推論のための正確なMLLMシステムの開発を目指して,マルチモーダルLLMの知覚眼としてVersatile Vision enCoders(VCoder)を提案する。我々は,VCoderにセグメンテーションや深度マップなどの知覚モダリティを与え,MLLMの知覚能力を向上させる。第2に、COCOの画像を活用し、市販の視覚知覚モデルから出力し、オブジェクト認識タスク上でMLLMをトレーニングおよび評価するためのCOCOセグメンテーションテキスト(COST)データセットを作成する。第3に,COSTデータセット上でMLLMの物体知覚能力を評価する指標を導入する。最後に、GPT-4Vを含む既存のマルチモーダルLLMに対して、VCoderのオブジェクトレベルの認識能力の向上を実証する広範な実験的な証拠を提供する。研究を促進するために、データセット、コード、モデルをオープンソースにしています。私たちは、https://github.com/SHI-Labs/VCoderでコードをオープンソース化しました。

関連論文リスト

LLMs Can Compensate for Deficiencies in Visual Representations [34.01176691790258]
私たちはCLIPベースの視覚エンコーダを構築しており、様々な制限があることが知られている。我々は、慎重に設計された探索作業において、制御された自己注意の保証を行う。既知の制限にもかかわらず、CLIP視覚表現は言語デコーダに読みやすいセマンティック情報を提供する。
論文参考訳（メタデータ） (2025-06-05T12:04:59Z)
Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [53.13731845500678]
本稿では、視覚エンコーダの事前知識がMLLMの性能に与える影響を定量化するために、新しい計量である$Rank_e$を導入する。視覚エンコーダレベルで事前知識を明示的に組み込んだ2段階トレーニングフレームワークであるVisPREを提案する。実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-03-23T11:33:09Z)
Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。 MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文参考訳（メタデータ） (2024-12-02T09:02:28Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳（メタデータ） (2024-08-28T17:59:31Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文参考訳（メタデータ） (2024-06-27T17:59:01Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。