論文の概要: FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
- arxiv url: http://arxiv.org/abs/2504.09925v2
- Date: Sat, 19 Apr 2025 17:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 12:13:12.400806
- Title: FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
- Title(参考訳): FUSION:ディープ・クロスモーダル理解のための視覚言語表現の完全統合
- Authors: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)のファミリーを紹介する。
我々は,ピクセルレベルの統合を実現するために,エンコーディングにテキスト情報を取り入れたテキストガイド統一ビジョンスーパーバイスを提案する。
我々は,新しいデータ合成手法を用いて,合成言語駆動質問応答データセットを構築した。
- 参考スコア(独自算出の注目度): 42.00661579027648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FUSION, a family of multimodal large language models (MLLMs) with a fully vision-language alignment and integration paradigm. Unlike existing methods that primarily rely on late-stage modality interaction during LLM decoding, our approach achieves deep, dynamic integration throughout the entire processing pipeline. To this end, we propose Text-Guided Unified Vision Encoding, incorporating textual information in vision encoding to achieve pixel-level integration. We further design Context-Aware Recursive Alignment Decoding that recursively aggregates visual features conditioned on textual context during decoding, enabling fine-grained, question-level semantic integration. To guide feature mapping and mitigate modality discrepancies, we develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a Synthesized Language-Driven Question-Answer (QA) dataset through a new data synthesis method, prioritizing high-quality QA pairs to optimize text-guided feature integration. Building on these foundations, we train FUSION at two scales-3B, 8B-and demonstrate that our full-modality integration approach significantly outperforms existing methods with only 630 vision tokens. Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited to 300 vision tokens. Our ablation studies show that FUSION outperforms LLaVA-NeXT on over half of the benchmarks under same configuration without dynamic resolution, highlighting the effectiveness of our approach. We release our code, model weights, and dataset. https://github.com/starriver030515/FUSION
- Abstract(参考訳): フルビジョン言語アライメントと統合パラダイムを備えたマルチモーダル大規模言語モデル(MLLM)のファミリーであるFUSIONを紹介する。
LLM復号処理における遅延段階のモダリティ相互作用に主に依存する既存の手法とは異なり、我々の手法は処理パイプライン全体を通して深い動的統合を実現する。
そこで本研究では,画素レベルの統合を実現するために,視覚符号化にテキスト情報を取り入れたテキストガイド統一ビジョン符号化を提案する。
我々はさらに、デコーディング中にテキストコンテキストで条件付けられた視覚的特徴を再帰的に集約するコンテキスト対応再帰的アライメントデコーディングを設計し、きめ細かい質問レベルのセマンティック統合を可能にする。
特徴写像の導出とモダリティの相違を緩和するため,Dual-Supervised Semantic Mapping Lossを開発した。
さらに,テキスト誘導機能統合を最適化するために,高品質なQAペアを優先順位付けする新たなデータ合成手法により,合成言語駆動質問応答(QA)データセットを構築した。
これらの基盤に基づいて、FUSIONを2つのスケール-3B、8Bでトレーニングし、我々のフルモダリティ統合アプローチが630の視覚トークンで既存のメソッドよりも大幅に優れていることを示す。
特に、FUSION 3BはほとんどのベンチマークでCambrian-1 8BとFlorence-VL 8Bを上回っている。
FUSION 3Bは300個の視覚トークンに制限された場合でも、Cambrian-1 8Bを上回っ続けている。
我々のアブレーション研究は、FUSIONがLLaVA-NeXTを半分以上のベンチマークで動的解像度を伴わずに性能を向上し、我々のアプローチの有効性を浮き彫りにしていることを示している。
コード、モデルの重み付け、データセットをリリースします。
https://github.com/starriver030515/FUSION
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。