論文の概要: Xuanwu: Evolving General Multimodal Models into an Industrial-Grade Foundation for Content Ecosystems
- arxiv url: http://arxiv.org/abs/2603.29211v1
- Date: Tue, 31 Mar 2026 03:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.078903
- Title: Xuanwu: Evolving General Multimodal Models into an Industrial-Grade Foundation for Content Ecosystems
- Title(参考訳): Xuanwu: 一般的なマルチモーダルモデルをコンテントエコシステムのためのインダストリアルグレードファウンデーションに発展させる
- Authors: Zhiqian Zhang, Xu Zhao, Xiaoqing Xu, Guangdong Liang, Weijia Wang, Xiaolei Lv, Bo Li, Jun Gao,
- Abstract要約: Xuanwu VL-2Bは、コンテンツエコシステムにおける一般的なマルチモーダルモデルの開発方法のケーススタディとして紹介する。
このモデルはコンパクトなInternViT-300M + + Qwen3 1.7Bアーキテクチャを採用し、きめ細かい視覚認識、言語・セマンティックアライメント、デプロイメントコストのバランスをとる。
限られたパラメータ予算の下では、Xuanwu VL-2Bは、ビジネスアライメント、視覚知覚、汎用能力維持、デプロイメントコストの実践的バランスを実現する。
- 参考スコア(独自算出の注目度): 12.774176968136969
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In recent years, multimodal large models have continued to improve on general benchmarks. However, in real-world content moderation and adversarial settings, mainstream models still suffer from degraded generalization and catastrophic forgetting because of limited fine-grained visual perception and insufficient modeling of long-tail noise. In this paper, we present Xuanwu VL-2B as a case study of how general multimodal models can be developed into an industrial-grade foundation model for content ecosystems. The model adopts a compact InternViT-300M + MLP + Qwen3 1.7B architecture, balancing fine-grained visual perception, language-semantic alignment, and deployment cost within an approximately 2B-parameter budget. To balance business specialization with the retention of general capabilities, we developed a data iteration and curation mechanism and trained the model through a progressive three-stage pipeline: pre-training, mid-training, and post-training. Ablation studies and offline business evaluations show that Xuanwu VL-2B achieves an average score of 67.90 across seven OpenCompass multimodal metrics (vs. 64.27 for InternVL 3.5 2B), an average recall of 94.38% over seven independent business moderation tasks, and a weighted overall recall of 82.82% on policy-violating text in challenging adversarial OCR scenarios, outperforming Gemini-2.5-Pro (76.72%). These results show that, under a limited parameter budget, Xuanwu VL-2B achieves a practical balance among business alignment, visual perception, general capability retention, and deployment cost.
- Abstract(参考訳): 近年、マルチモーダルな大規模モデルは一般的なベンチマークで改善され続けている。
しかし、現実のコンテンツモデレーションや敵対的な設定では、メインストリームモデルは、細粒度の視覚的知覚が限られ、ロングテールノイズのモデリングが不十分なため、一般化と破滅的な忘れ込みに苦しむ。
本稿では、Xuanwu VL-2Bについて、一般的なマルチモーダルモデルをコンテンツエコシステムの産業グレード基盤モデルとして開発する方法のケーススタディとして紹介する。
このモデルは、コンパクトなInternViT-300M + MLP + Qwen3 1.7Bアーキテクチャを採用し、およそ2Bパラメータの予算内で、きめ細かい視覚認識、言語とセマンティックなアライメント、デプロイメントコストのバランスをとる。
ビジネスの専門化と一般機能の維持のバランスをとるため,データイテレーションとキュレーション機構を開発し,事前学習,中段階学習,後段階学習という3段階的なパイプラインを通じてモデルを訓練した。
アブレーション調査とオフラインビジネス評価の結果、Xuanwu VL-2Bは7つのOpenCompassマルチモーダルメトリクスの平均スコア67.90(vs. 64.27 for InternVL 3.5 2B)、7つの独立したビジネスモデレーションタスクの平均リコール94.38%、そして、敵対的なOCRシナリオにおけるポリシー違反テキストの重み付き総リコール82.82%、Gemini-2.5-Pro(76.72%)を上回った。
これらの結果から,Xuanwu VL-2Bは,限られたパラメータ予算の下で,ビジネスアライメント,視覚知覚,汎用能力維持,展開コストの現実的バランスを実現することがわかった。
関連論文リスト
- MACEval: A Multi-Agent Continual Evaluation Network for Large Models [52.629762680215315]
大規模モデルの動的評価のためのマルチエージェント連続評価ネットワークであるMACEvalを紹介する。
MACEvalは,(1)人間フリーで自動で,(2)エージェント間判定による退屈な結果処理を緩和し,(2)効率よく,経済的に,相当量のデータとオーバーヘッドを減らして,関連するベンチマークと同じような結果が得られること,(3)カスタマイズされた評価トポロジによる既存のベンチマークの柔軟性,拡張性,マイグレーション,統合化を実証する。
論文 参考訳(メタデータ) (2025-11-12T09:26:24Z) - Qianfan-VL: Domain-Enhanced Universal Vision-Language Models [30.739042613064015]
マルチモーダルな大規模言語モデルであるQianfan-VLは、革新的なドメイン拡張技術によって最先端のパフォーマンスを達成する。
提案手法では,多段階のプログレッシブトレーニングと高精度データ合成パイプラインを用いる。
すべてのモデルはBaiduのKunlun P800チップで完全にトレーニングされており、SOTAレベルのマルチモーダルモデルをトレーニングする大規模AIインフラストラクチャの能力を検証する。
論文 参考訳(メタデータ) (2025-09-19T07:05:23Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.799543372823325]
セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文 参考訳(メタデータ) (2024-09-14T21:01:49Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - Billion-user Customer Lifetime Value Prediction: An Industrial-scale
Solution from Kuaishou [19.31651596803956]
顧客ライフタイムバリュー(英:Customer Life Time Value、LTV)は、単一のユーザがビジネスにもたらすことができる総収入である。
LTVのモデリングは、複雑で変更可能なデータ分散のため、難しい問題である。
我々は、異なる時間帯のLTV間の順序依存をモデル化する秩序依存モノトニックネットワーク(ODMN)を導入する。
論文 参考訳(メタデータ) (2022-08-29T04:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。