論文の概要: Unified Multimodal Understanding via Byte-Pair Visual Encoding
- arxiv url: http://arxiv.org/abs/2506.23639v1
- Date: Mon, 30 Jun 2025 09:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.988019
- Title: Unified Multimodal Understanding via Byte-Pair Visual Encoding
- Title(参考訳): バイトペアビジュアルエンコーディングによる統一マルチモーダル理解
- Authors: Wanpeng Zhang, Yicheng Feng, Hao Luo, Yijiang Li, Zihao Yue, Sipeng Zheng, Zongqing Lu,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は視覚言語理解において大きな進歩を遂げている。
視覚トークンにバイトペアエンコーディングを適用することで,マルチモーダル理解を統一するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.96534298857146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have made significant progress in vision-language understanding, yet effectively aligning different modalities remains a fundamental challenge. We present a framework that unifies multimodal understanding by applying byte-pair encoding to visual tokens. Unlike conventional approaches that rely on modality-specific encoders, our method directly incorporates structural information into visual tokens, mirroring successful tokenization strategies in text-only language models. We introduce a priority-guided encoding scheme that considers both frequency and spatial consistency, coupled with a multi-stage training procedure based on curriculum-driven data composition. These enhancements enable the transformer model to better capture cross-modal relationships and reason with visual information. Comprehensive experiments demonstrate improved performance across diverse vision-language tasks. By bridging the gap between visual and textual representations, our approach contributes to the advancement of more capable and efficient multimodal foundation models.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、視覚言語理解において大きな進歩を遂げているが、異なるモダリティを効果的に整合させることは根本的な課題である。
視覚トークンにバイトペアエンコーディングを適用することで,マルチモーダル理解を統一するフレームワークを提案する。
モダリティ固有のエンコーダに依存する従来の手法とは異なり、本手法は構造情報を直接視覚トークンに組み込み、テキストのみの言語モデルで成功したトークン化戦略を反映する。
本稿では,周波数と空間の整合性を考慮した優先度誘導型符号化手法と,カリキュラム駆動型データ合成に基づく多段階学習手法を提案する。
これらの拡張により、トランスフォーマーモデルは、クロスモーダルな関係と視覚情報による推論をよりよくキャプチャできる。
総合的な実験では、様々な視覚言語タスクのパフォーマンスが向上した。
視覚的表現とテキスト表現のギャップを埋めることにより、より有能で効率的なマルチモーダル基礎モデルの進歩に寄与する。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models [79.0546136194314]
マルチモーダルな大言語モデルのゼロショットタスクの一般化を改善するために,新しい視覚的インストラクションチューニング手法を提案する。
十分な多彩なテキストのみのデータの増加は、視覚言語アプローチよりも効率的でありながら、モダリティ全体にわたって命令追従能力とドメイン知識の伝達を可能にする。
論文 参考訳(メタデータ) (2024-11-15T20:09:59Z) - From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
視覚的エンコーダの分離に依存する従来の手法とは異なり,本手法では構造的事前情報を画像トークンに直接組み込む。
この革新的なアプローチにより、Transformerモデルはモダリティをより効果的に学習し、推論することができる。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。