Fugu-MT 論文翻訳(概要): Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension

論文の概要: Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension

arxiv url: http://arxiv.org/abs/2410.14332v2
Date: Sat, 30 Nov 2024 05:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.802131
Title: Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension
Title（参考訳）: Croc: クロスモーダル理解による大規模マルチモーダルモデルの事前学習
Authors: Yin Xie, Kaicheng Yang, Ninghua Yang, Weimo Deng, Xiangzi Dai, Tiancheng Gu, Yumeng Wang, Xiang An, Yongle Zhao, Ziyong Feng, Jiankang Deng,
Abstract要約: 本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 21.500920290909843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in Large Language Models (LLMs) have catalyzed the development of Large Multimodal Models (LMMs). However, existing research primarily focuses on tuning language and image instructions, ignoring the critical pretraining phase where models learn to process textual and visual modalities jointly. In this paper, we propose a new pretraining paradigm for LMMs to enhance the visual comprehension capabilities of LLMs by introducing a novel cross-modal comprehension stage. Specifically, we design a dynamically learnable prompt token pool and employ the Hungarian algorithm to replace part of the original visual tokens with the most relevant prompt tokens. Then, we conceptualize visual tokens as analogous to a "foreign language" for the LLMs and propose a mixed attention mechanism with bidirectional visual attention and unidirectional textual attention to comprehensively enhance the understanding of visual tokens. Meanwhile, we integrate a detailed caption generation task, leveraging rich descriptions to further facilitate LLMs in understanding visual semantic information. After pretraining on 1.5 million publicly accessible data, we present a new foundation model called Croc. Experimental results demonstrate that Croc achieves new state-of-the-art performance on massive vision-language benchmarks. To support reproducibility and facilitate further research, we release the training code and pre-trained model weights at https://github.com/deepglint/Croc.
Abstract（参考訳）: 近年のLarge Language Models (LLM) の発展は,Large Multimodal Models (LMM) の発展を触媒している。しかし、既存の研究は主に言語と画像の指示をチューニングすることに焦点を当てており、モデルがテキストと視覚のモダリティを共同で処理することを学習する重要な事前学習フェーズを無視している。本稿では,LLMの視覚的理解能力を高めるための新たな事前学習パラダイムを提案する。具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。そこで我々は,視覚トークンをLLMの「外部言語」に類似した概念化し,視覚トークンの理解を包括的に強化するために,双方向の視覚的注意と一方向のテキスト的注意を伴う混合注意機構を提案する。一方,視覚的意味情報の理解において,LLMの理解をさらに促進するために,豊富な記述を活用する詳細なキャプション生成タスクを統合する。 150万の公開アクセスデータを事前トレーニングした後、Crocと呼ばれる新しい基礎モデルを提示します。実験結果から,Crocは大規模視覚言語ベンチマークにおいて,最先端性能を実現することができた。再現性をサポートし、さらなる研究を容易にするため、トレーニングコードと事前訓練されたモデルの重み付けをhttps://github.com/deepglint/Crocでリリースする。

関連論文リスト

When LLaVA Meets Objects: Token Composition for Vision-Language-Models [31.554057603168214]
Mask-LLaVAは、様々なレベルの視覚的特徴を活用して、自己回帰視覚言語モデルのためのコンパクトで情報に富んだ視覚表現を作成するフレームワークである。すべてのトークンはトレーニング中に使用されるが、結果として得られるモデルは、特にテスト時にマスクベースのオブジェクトトークンの数を柔軟に減少させることができる。分析の結果,マルチレベル機能を組み合わせることで,より少ないトークンで効率的な学習が可能であり,テスト時に動的トークン選択を可能とし,性能を向上できることがわかった。
論文参考訳（メタデータ） (2026-02-04T18:50:46Z)
See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。 3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。 SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文参考訳（メタデータ） (2025-10-21T17:34:48Z)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。 ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文参考訳（メタデータ） (2025-06-10T17:57:50Z)
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文参考訳（メタデータ） (2025-05-08T20:04:27Z)
Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers [32.167072183575925]
本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
論文参考訳（メタデータ） (2024-10-17T22:45:13Z)
Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文参考訳（メタデータ） (2024-09-21T02:10:19Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。 MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-27T21:16:10Z)
A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文参考訳（メタデータ） (2021-11-29T17:49:24Z)
InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。コントラスト学習に基づく新しい事前学習課題を提案する。単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文参考訳（メタデータ） (2020-07-15T16:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。