論文の概要: VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment
- arxiv url: http://arxiv.org/abs/2511.17962v1
- Date: Sat, 22 Nov 2025 07:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.546112
- Title: VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment
- Title(参考訳): VITAL:視覚品質評価におけるLMMのためのビジョンエンコーダ中心の事前学習
- Authors: Ziheng Jia, Linhan Cao, Jinliang Han, Zicheng Zhang, Jiaying Qian, Jiarui Wang, Zijian Chen, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 本稿では,視覚エンコーダを中心とした生成事前学習パイプラインを提案し,VITAL-Series LMMを開発した。
これまでで最大のVQualAトレーニングデータセットである、450万以上の視覚言語(VL)ペアを構築した。
モデルの定量的スコアリング精度を同時に向上するマルチタスクトレーニングワークフローを採用している。
- 参考スコア(独自算出の注目度): 88.83260031198023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing a robust visual quality assessment (VQualA) large multi-modal model (LMM) requires achieving versatility, powerfulness, and transferability. However, existing VQualA LMMs typically focus on a single task and rely on full-parameter fine-tuning, which makes them prone to overfitting on specific modalities or task types, thereby limiting their generalization capacity and transferability. To address this, we propose a vision-encoder-centered generative pre-training pipeline and develop the VITAL-Series LMMs. (1) We adopt a machine-executed annotation-scrutiny paradigm, constructing over 4.5M vision-language (VL) pairs-the largest VQualA training dataset to date. (2) We employ a multi-task training workflow that simultaneously enhances the model's quantitative scoring precision and strengthens its capability for quality interpretation across both image and video modalities. (3) Building upon the vision encoder, we realize an efficient model zoo extension: the model zoo exhibits strong zero-shot performance, and each paired decoder requires only a swift warm-up using less than 1/1000 of the pre-training data to achieve performance comparable to the fully trained counterpart. Overall, our work lays a cornerstone for advancing toward the foundation LMM for VQualA.
- Abstract(参考訳): 堅牢な視覚品質評価(VQualA)大規模マルチモーダルモデル(LMM)の開発には、汎用性、強力性、転送性の実現が必要である。
しかしながら、既存のVQualA LMMは一般に1つのタスクにフォーカスし、フルパラメータの微調整に依存するため、特定のモダリティやタスクタイプに過度に適合する傾向があり、一般化能力と転送可能性を制限する。
そこで本研究では,視覚エンコーダを中心とした生成事前学習パイプラインを提案し,VITAL-Series LMMを開発した。
1) これまでで最大のVQualAトレーニングデータセットである4.5Mの視覚言語(VL)ペアを構築した,機械処理によるアノテーション-精査パラダイムを採用する。
2)モデルの定量的スコアリング精度を同時に向上するマルチタスクトレーニングワークフローを採用し,画像とビデオの両モードをまたいだ品質解釈能力を向上させる。
3) ビジョンエンコーダをベースとして, モデル動物園はゼロショット性能が強く, 各ペアデコーダは1/1000以下の事前学習データを用いて, 高速なウォームアップしか必要とせず, 完全に訓練された動物園に匹敵する性能を実現する。
全体として、我々の研究はVQualAの基盤LMMに向けて進むための基礎を成している。
関連論文リスト
- Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。