論文の概要: Multi-modal Auto-regressive Modeling via Visual Words
- arxiv url: http://arxiv.org/abs/2403.07720v1
- Date: Tue, 12 Mar 2024 14:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:02:28.127089
- Title: Multi-modal Auto-regressive Modeling via Visual Words
- Title(参考訳): ビジュアルワードによるマルチモーダル自動回帰モデリング
- Authors: Tianshuo Peng, Zuchao Li, Lefei Zhang, Hai Zhao, Ping Wang, and Bo Du
- Abstract要約: 本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
- 参考スコア(独自算出の注目度): 96.25078866446053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), benefiting from the auto-regressive modelling
approach performed on massive unannotated texts corpora, demonstrates powerful
perceptual and reasoning capabilities. However, as for extending
auto-regressive modelling to multi-modal scenarios to build Large Multi-modal
Models (LMMs), there lies a great difficulty that the image information is
processed in the LMM as continuous visual embeddings, which cannot obtain
discrete supervised labels for classification. In this paper, we successfully
perform multi-modal auto-regressive modeling with a unified objective for the
first time. Specifically, we propose the concept of visual words, which maps
the visual features to probability distributions over LLM's vocabulary,
providing supervision information for visual modelling. We further explore the
distribution of visual features in the semantic space within LMM and the
possibility of using text embeddings to represent visual information.
Experimental results and ablation studies on 5 VQA tasks and 4 benchmark
toolkits validate the powerful performance of our proposed approach.
- Abstract(参考訳): 大規模言語モデル(LLM)は、巨大な未注釈テキストコーパスで実行される自動回帰モデリングアプローチの恩恵を受け、強力な知覚と推論能力を示す。
しかし, 大規模マルチモーダルモデル (LMM) を構築するために, 自己回帰モデルからマルチモーダルシナリオへの拡張には, 画像情報が連続的な視覚埋め込みとしてLMMで処理されることは困難であり, 分類のための個別のラベルを得ることはできない。
本稿では,マルチモーダル自動回帰モデリングを初めて統一目的として実現した。
具体的には、視覚特徴をllm語彙上の確率分布にマッピングし、視覚モデルのための監督情報を提供するビジュアルワードの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためのテキスト埋め込みの可能性について検討する。
5つのVQAタスクと4つのベンチマークツールキットの実験結果とアブレーション研究により,提案手法の有効性が検証された。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - The (R)Evolution of Multimodal Large Language Models: A Survey [48.61135328255951]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティを、入力と出力の両方としてシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Enhancing Multimodal Large Language Models with Vision Detection Models:
An Empirical Study [34.94523378724141]
本稿では,SOTA(State-of-the-art Object Detection)と光文字認識モデルを用いたMLLMの強化に関する実証的研究を行う。
我々は,LLaVA-1.5,DINO,PaddleOCRv2などのモデルを用いて系統的な実験を行い,MLLMの性能を向上するだけでなく,元の強みも維持することを示した。
その結果、MLLMは10ベンチマーク中9ベンチマークでSOTAモデルを上回っ、正規化平均スコアで最大12.99%向上した。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation [16.83885487855187]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - mPLUG-Owl: Modularization Empowers Large Language Models with
Multimodality [55.698502221911944]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。