論文の概要: VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters
- arxiv url: http://arxiv.org/abs/2603.04957v1
- Date: Thu, 05 Mar 2026 08:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.15135
- Title: VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters
- Title(参考訳): VisionPangu: 1.7Bパラメータを持つコンパクトで微細なマルチモーダルアシスタント
- Authors: Jiaxin Fan, Wenpo Song,
- Abstract要約: VisionPanguは、詳細な画像キャプションを改善するために設計されたコンパクトなマルチモーダルモデルである。
我々のモデルは、InternVLから派生したビジョンエンコーダと軽量プロジェクタを介してOpenPangu-Embedded言語バックボーンを組み合わせる。
DOCCIデータセットからの詳細な人間による記述を取り入れることで、VisionPanguは、積極的なモデルスケーリングに頼ることなく、セマンティックコヒーレンスと記述豊かさを改善している。
- 参考スコア(独自算出の注目度): 3.9100547455920824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have achieved strong performance in vision-language understanding, yet many existing approaches rely on large-scale architectures and coarse supervision, which limits their ability to generate detailed image captions. In this work, we present VisionPangu, a compact 1.7B-parameter multimodal model designed to improve detailed image captioning through efficient multimodal alignment and high-quality supervision. Our model combines an InternVL-derived vision encoder with the OpenPangu-Embedded language backbone via a lightweight MLP projector and adopts an instruction-tuning pipeline inspired by LLaVA. By incorporating dense human-authored descriptions from the DOCCI dataset, VisionPangu improves semantic coherence and descriptive richness without relying on aggressive model scaling. Experimental results demonstrate that compact multimodal models can achieve competitive performance while producing more structured and detailed captions. The code and model weights will be publicly available at https://www.modelscope.cn/models/asdfgh007/visionpangu.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚言語理解において高い性能を達成しているが、既存の多くのアプローチは大規模アーキテクチャと粗い監督に依存しており、詳細な画像キャプションを生成する能力は制限されている。
本研究では,高効率なマルチモーダルアライメントと高品質な監視によって詳細な画像キャプションを改善するために設計された,コンパクトな1.7BパラメータマルチモーダルモデルであるVisionPanguを提案する。
我々のモデルは、インターンVL由来のビジョンエンコーダとOpenPangu-Embedded言語バックボーンを軽量MLPプロジェクタを介して組み合わせ、LLaVAにインスパイアされた命令チューニングパイプラインを採用する。
DOCCIデータセットからの詳細な人間による記述を取り入れることで、VisionPanguは、積極的なモデルスケーリングに頼ることなく、セマンティックコヒーレンスと記述豊かさを改善している。
実験により,コンパクトなマルチモーダルモデルにより,より構造化された詳細なキャプションを生成しながら,競争性能を向上できることが示された。
コードとモデルの重み付けはhttps://www.modelscope.cn/models/asdfgh007/visionpanguで公開されます。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Show-o2: Improved Native Unified Multimodal Models [57.34173415412808]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。
3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文 参考訳(メタデータ) (2025-06-18T15:39:15Z) - From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
視覚的エンコーダの分離に依存する従来の手法とは異なり,本手法では構造的事前情報を画像トークンに直接組み込む。
この革新的なアプローチにより、Transformerモデルはモダリティをより効果的に学習し、推論することができる。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。
凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。