Fugu-MT 論文翻訳(概要): Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

論文の概要: Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2401.03105v2
Date: Sat, 13 Jan 2024 15:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 23:33:24.219119
Title: Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルにおける視覚的エキスパートによる情報損失の解消
Authors: Xin He and Longhui Wei and Lingxi Xie and Qi Tian
Abstract要約: 本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
参考スコア（独自算出の注目度）: 121.83413400686139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) are experiencing rapid growth, yielding a plethora of noteworthy contributions in recent months. The prevailing trend involves adopting data-driven methodologies, wherein diverse instruction-following datasets are collected. However, a prevailing challenge persists in these approaches, specifically in relation to the limited visual perception ability, as CLIP-like encoders employed for extracting visual information from inputs. Though these encoders are pre-trained on billions of image-text pairs, they still grapple with the information loss dilemma, given that textual captions only partially capture the contents depicted in images. To address this limitation, this paper proposes to improve the visual perception ability of MLLMs through a mixture-of-experts knowledge enhancement mechanism. Specifically, we introduce a novel method that incorporates multi-task encoders and visual tools into the existing MLLMs training and inference pipeline, aiming to provide a more comprehensive and accurate summarization of visual inputs. Extensive experiments have evaluated its effectiveness of advancing MLLMs, showcasing improved visual perception achieved through the integration of visual experts.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は急激な成長を遂げており、ここ数ヶ月で注目すべき貢献が数多く得られている。一般的なトレンドは、さまざまな命令追従データセットを収集するデータ駆動手法の採用である。しかし、CLIPのようなエンコーダが入力から視覚情報を抽出するために使用されるように、これらのアプローチでは、特に視覚知覚能力の制限に関連して、一般的な課題が続いている。これらのエンコーダは数十億のイメージテキストペアで事前トレーニングされているが、テキストによるキャプションは画像に描かれたコンテンツの一部しかキャプチャしないため、情報損失のジレンマに苦しめられている。そこで本研究では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。具体的には,マルチタスクエンコーダとビジュアルツールを既存のMLLMのトレーニングと推論パイプラインに組み込むことによって,視覚入力のより包括的で正確な要約を実現する手法を提案する。広汎な実験は、視覚専門家の統合によって達成された視覚的知覚の向上を示すMLLMの進歩の有効性を評価してきた。

関連論文リスト

Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [53.13731845500678]
本稿では、視覚エンコーダの事前知識がMLLMの性能に与える影響を定量化するために、新しい計量である$Rank_e$を導入する。視覚エンコーダレベルで事前知識を明示的に組み込んだ2段階トレーニングフレームワークであるVisPREを提案する。実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-03-23T11:33:09Z)
From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。 13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文参考訳（メタデータ） (2025-02-13T09:04:28Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文参考訳（メタデータ） (2024-01-30T18:09:11Z)
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文参考訳（メタデータ） (2023-10-13T02:41:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。