Fugu-MT 論文翻訳(概要): Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

論文の概要: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

arxiv url: http://arxiv.org/abs/2406.16860v1
Date: Mon, 24 Jun 2024 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 13:36:22.108158
Title: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
Title（参考訳）: Cambrian-1:マルチモーダルLLMの完全なオープン・ビジョン中心探索
Authors: Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie,
Abstract要約: 視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
参考スコア（独自算出の注目度）: 56.391404083287235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Cambrian-1, a family of multimodal LLMs (MLLMs) designed with a vision-centric approach. While stronger language models can enhance multimodal capabilities, the design choices for vision components are often insufficiently explored and disconnected from visual representation learning research. This gap hinders accurate sensory grounding in real-world scenarios. Our study uses LLMs and visual instruction tuning as an interface to evaluate various visual representations, offering new insights into different models and architectures -- self-supervised, strongly supervised, or combinations thereof -- based on experiments with over 20 vision encoders. We critically examine existing MLLM benchmarks, addressing the difficulties involved in consolidating and interpreting results from various tasks, and introduce a new vision-centric benchmark, CV-Bench. To further improve visual grounding, we propose the Spatial Vision Aggregator (SVA), a dynamic and spatially-aware connector that integrates high-resolution vision features with LLMs while reducing the number of tokens. Additionally, we discuss the curation of high-quality visual instruction-tuning data from publicly available sources, emphasizing the importance of data source balancing and distribution ratio. Collectively, Cambrian-1 not only achieves state-of-the-art performance but also serves as a comprehensive, open cookbook for instruction-tuned MLLMs. We provide model weights, code, supporting tools, datasets, and detailed instruction-tuning and evaluation recipes. We hope our release will inspire and accelerate advancements in multimodal systems and visual representation learning.
Abstract（参考訳）: 視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。より強力な言語モデルはマルチモーダル能力を高めることができるが、視覚コンポーネントの設計選択はしばしば不十分に探索され、視覚表現学習研究から切り離されている。このギャップは、現実世界のシナリオにおける正確なセンサーの接地を妨げる。本研究は,20以上の視覚エンコーダを用いた実験に基づいて,LLMとビジュアルインストラクションチューニングを用いて様々な視覚表現の評価を行い,異なるモデルやアーキテクチャ(自己監督型,強く監督型,あるいは組み合わせ型)に対する新たな洞察を提供する。既存のMLLMベンチマークを批判的に検討し、様々なタスクの結果の統合と解釈の難しさに対処し、新しいビジョン中心のベンチマークCV-Benchを導入する。本研究では,高分解能な視覚特徴をLCMと統合した動的かつ空間的に認識可能なコネクタである空間的視覚アグリゲータ (SVA) を提案する。さらに,公開資料からの高品質な視覚指導調整データのキュレーションについて検討し,データソースのバランスと分配率の重要性を強調した。総括的に、Cambrian-1は最先端のパフォーマンスを達成するだけでなく、命令調整されたMLLMのための包括的でオープンなクックブックとしても機能する。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。私たちは、マルチモーダルシステムと視覚表現学習の進歩を刺激し、加速することを願っています。

関連論文リスト

Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文参考訳（メタデータ） (2025-09-09T17:59:14Z)
Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。 MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文参考訳（メタデータ） (2024-12-02T09:02:28Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。 LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文参考訳（メタデータ） (2024-10-08T08:39:04Z)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳（メタデータ） (2024-08-28T17:59:31Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。 We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文参考訳（メタデータ） (2023-12-21T18:49:47Z)
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文参考訳（メタデータ） (2023-10-13T02:41:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。