論文の概要: SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature Refinement
- arxiv url: http://arxiv.org/abs/2507.01643v1
- Date: Wed, 02 Jul 2025 12:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.189043
- Title: SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature Refinement
- Title(参考訳): SAILViT: 経時的特徴リファインメントによるMLLMのためのロバストで一般化可能なビジュアルバックボーンを目指して
- Authors: Weijie Yin, Dingkang Yang, Hongyuan Dong, Zijian Kang, Jiacong Wang, Xiao Liang, Chao Feng, Jiao Ran,
- Abstract要約: 視覚変換器(ViT)は,マルチモーダル大言語モデル(MLLM)の視覚的理解能力を確立する上で,基礎的バックボーンとして不可欠である
本稿では,MLLMの複雑なマルチモーダルインタラクションにおける性能ボトルネックを突破するための,段階的特徴学習型ViTを提案する。
- 参考スコア(独自算出の注目度): 11.815369617016174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) are essential as foundation backbones in establishing the visual comprehension capabilities of Multimodal Large Language Models (MLLMs). Although most ViTs achieve impressive performance through image-text pair-based contrastive learning or self-supervised mechanisms, they struggle to engage in connector-based co-training directly with LLMs due to potential parameter initialization conflicts and modality semantic gaps. To address the above challenges, this paper proposes SAILViT, a gradual feature learning-enhanced ViT for facilitating MLLMs to break through performance bottlenecks in complex multimodal interactions. SAILViT achieves coarse-to-fine-grained feature alignment and world knowledge infusion with gradual feature refinement, which better serves target training demands. We perform thorough empirical analyses to confirm the powerful robustness and generalizability of SAILViT across different dimensions, including parameter sizes, model architectures, training strategies, and data scales. Equipped with SAILViT, existing MLLMs show significant and consistent performance improvements on the OpenCompass benchmark across extensive downstream tasks. SAILViT series models are released at https://huggingface.co/BytedanceDouyinContent.
- Abstract(参考訳): 視覚変換器(ViT)は,MLLM(Multimodal Large Language Models)の視覚的理解能力を確立する上で,基礎となるバックボーンとして不可欠である。
多くのViTは、画像テキストによるペアベースのコントラスト学習や自己教師機構を通じて、印象的なパフォーマンスを達成するが、潜在的なパラメータの初期化競合やモダリティの意味的ギャップのために、コネクタベースのコトレーニングをLLMと直接的に行うのに苦労する。
上記の課題に対処するため,複雑なマルチモーダル相互作用における性能ボトルネックを突破するための,段階的特徴学習型ViTであるSAILViTを提案する。
SAILViTは、粗大できめ細かな特徴アライメントと、段階的な特徴改善による世界知識の注入を実現する。
パラメータサイズ,モデルアーキテクチャ,トレーニング戦略,データスケールなど,さまざまな次元にわたるSAILViTの強力な堅牢性と一般化性を確認するための,徹底的な実証分析を実施している。
SAILViTと組み合わされた既存のMLLMは、広範囲なダウンストリームタスクにわたるOpenCompassベンチマークにおいて、大幅な、一貫したパフォーマンス改善を示している。
SAILViTシリーズモデルはhttps://huggingface.co/BytedanceDouyinContentでリリースされる。
関連論文リスト
- Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs [89.76543013729594]
ビジョントランスフォーマー(ViT)は、視覚のみのタスクのために、Large Language Model (LLM)ブロックと統合することができる。
直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。
LUViTは、このモダリティミスマッチを相乗的な事前訓練戦略を通じて橋渡しする。
論文 参考訳(メタデータ) (2025-07-01T13:58:21Z) - The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer [68.71557348281007]
本稿では,単一変圧器統合多モーダル大言語モデル(MLLM)であるSAILを紹介する。
事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは別個の視覚エンコーダを必要としない。
我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
論文 参考訳(メタデータ) (2025-04-14T17:50:20Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。