Fugu-MT 論文翻訳(概要): X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

論文の概要: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

arxiv url: http://arxiv.org/abs/2407.13851v1
Date: Thu, 18 Jul 2024 18:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 21:29:41.786918
Title: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
Title（参考訳）: X-Former:MLLMにおけるコントラスト学習と再構成学習の統合
Authors: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah,
Abstract要約: X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
参考スコア（独自算出の注目度）: 49.30255148577368
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have revolutionized the field of vision-language understanding by integrating visual perception capabilities into Large Language Models (LLMs). The prevailing trend in this field involves the utilization of a vision encoder derived from vision-language contrastive learning (CL), showing expertise in capturing overall representations while facing difficulties in capturing detailed local patterns. In this work, we focus on enhancing the visual representations for MLLMs by combining high-frequency and detailed visual representations, obtained through masked image modeling (MIM), with semantically-enriched low-frequency representations captured by CL. To achieve this goal, we introduce X-Former which is a lightweight transformer module designed to exploit the complementary strengths of CL and MIM through an innovative interaction mechanism. Specifically, X-Former first bootstraps vision-language representation learning and multimodal-to-multimodal generative learning from two frozen vision encoders, i.e., CLIP-ViT (CL-based) and MAE-ViT (MIM-based). It further bootstraps vision-to-language generative learning from a frozen LLM to ensure visual features from X-Former can be interpreted by the LLM. To demonstrate the effectiveness of our approach, we assess its performance on tasks demanding detailed visual understanding. Extensive evaluations indicate that X-Former excels in visual reasoning tasks involving both structural and semantic categories in the GQA dataset. Assessment on fine-grained visual perception benchmark further confirms its superior capabilities in visual understanding.
Abstract（参考訳）: 近年のMLLM(Multimodal Large Language Models)の進歩は、視覚認識機能をLLM(Large Language Models)に統合することで、視覚言語理解の分野に革命をもたらした。この分野で一般的なトレンドは、視覚言語コントラスト学習(CL)から派生した視覚エンコーダの利用であり、詳細な局所パターンを捉えるのに困難に直面しながら、全体表現をキャプチャする専門知識を示している。本研究では,マスク付き画像モデリング(MIM)により得られた高頻度・高精細な視覚表現と,CLが取得した意味的にリッチな低周波表現を組み合わせることで,MLLMの視覚表現の向上に焦点をあてる。この目的を達成するために,CLとMIMの相補的な強度を利用する軽量トランスフォーマーモジュールであるX-Formerを導入する。具体的には、X-Formerは2つの凍結視覚エンコーダ、すなわちCLIP-ViT(CLベース)とMAE-ViT(MIMベース)から視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。提案手法の有効性を示すため,詳細な視覚的理解を必要とするタスクにおいて,その性能を評価する。広範囲な評価から、X-FormerはGQAデータセットの構造的カテゴリと意味的カテゴリの両方を含む視覚的推論タスクに優れていることが示唆された。きめ細かい視覚知覚ベンチマークによる評価は、視覚理解におけるその優れた能力をさらに確認する。

関連論文リスト

Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。 JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文参考訳（メタデータ） (2025-12-17T19:01:34Z)
Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文参考訳（メタデータ） (2025-12-06T04:20:13Z)
Vision-Centric Activation and Coordination for Multimodal Large Language Models [42.26911585599856]
マルチモーダルな大言語モデル(MLLM)は、視覚エンコーダからLLMへのイメージ機能を統合し、高度な理解能力を示す。しかし、メインストリームMLLMは、重要な視覚中心の情報を無視して、テキストトークンの次のトークン予測によってのみ監督される。本稿では,ビジョン中心のアクティベーションとコーディネーションによってMLLM表現を最適化するVaCoを紹介する。
論文参考訳（メタデータ） (2025-10-16T06:38:39Z)
Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文参考訳（メタデータ） (2025-09-09T17:59:14Z)
Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文参考訳（メタデータ） (2025-05-08T20:04:27Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-06-24T17:52:16Z)
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception [24.406224705072763]
Mutually Reinforced Multimodal Large Language Model (MR-MLLM) は視覚知覚とマルチモーダル理解を高める新しいフレームワークである。まず、視覚モデルからの詳細な視覚入力と言語モデルの言語深度を調和させるために、共有クエリ融合機構を提案する。第2に、視覚知覚出力から新たなモダリティを取り入れた、知覚強化型クロスモーダル積分法を提案する。
論文参考訳（メタデータ） (2024-06-22T07:10:36Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。