論文の概要: Xray-Visual Models: Scaling Vision models on Industry Scale Data
- arxiv url: http://arxiv.org/abs/2602.16918v1
- Date: Wed, 18 Feb 2026 22:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.488927
- Title: Xray-Visual Models: Scaling Vision models on Industry Scale Data
- Title(参考訳): X線画像モデル:産業規模データによるビジョンモデルのスケーリング
- Authors: Shlok Mishra, Tsung-Yu Lin, Linda Wang, Hongli Xu, Yimin Liu, Michael Hsu, Chaitanya Ahuja, Hao Yuan, Jianpeng Cheng, Hong-You Chen, Haoyuan Xu, Chao Li, Abhijeet Awasthi, Jihye Moon, Don Husa, Michael Ge, Sumedha Singla, Arkabandhu Chowdhury, Phong Dingh, Satya Narayan Shukla, Yonghuan Yang, David Jacobs, Qi Guo, Jun Xiao, Xiangjun Fan, Aashu Singh,
- Abstract要約: Xray-Visualは、産業用ソーシャルメディアデータに基づいて訓練された大規模画像および映像理解のための統合視覚モデルアーキテクチャである。
私たちのモデルは、FacebookとInstagramから150億以上のキュレートされた画像テキストペアと100億のビデオハッシュタグペアを活用しています。
Xray-Visualは、より優れた精度と計算効率を維持しながら、スケーラブルでマルチモーダルな視覚モデルのための新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 40.21391133092764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Xray-Visual, a unified vision model architecture for large-scale image and video understanding trained on industry-scale social media data. Our model leverages over 15 billion curated image-text pairs and 10 billion video-hashtag pairs from Facebook and Instagram, employing robust data curation pipelines that incorporate balancing and noise suppression strategies to maximize semantic diversity while minimizing label noise. We introduce a three-stage training pipeline that combines self-supervised MAE, semi-supervised hashtag classification, and CLIP-style contrastive learning to jointly optimize image and video modalities. Our architecture builds on a Vision Transformer backbone enhanced with efficient token reorganization (EViT) for improved computational efficiency. Extensive experiments demonstrate that Xray-Visual achieves state-of-the-art performance across diverse benchmarks, including ImageNet for image classification, Kinetics and HMDB51 for video understanding, and MSCOCO for cross-modal retrieval. The model exhibits strong robustness to domain shift and adversarial perturbations. We further demonstrate that integrating large language models as text encoders (LLM2CLIP) significantly enhances retrieval performance and generalization capabilities, particularly in real-world environments. Xray-Visual establishes new benchmarks for scalable, multimodal vision models, while maintaining superior accuracy and computational efficiency.
- Abstract(参考訳): Xray-Visualは、産業用ソーシャルメディアデータに基づいて訓練された大規模画像および映像理解のための統合視覚モデルアーキテクチャである。
私たちのモデルは、FacebookとInstagramから150億以上のキュレートされた画像テキストペアと100億のビデオハッシュタグペアを活用し、バランシングとノイズ抑制戦略を取り入れた堅牢なデータキュレーションパイプラインを使用して、ラベルノイズを最小限に抑えながらセマンティックな多様性を最大化します。
我々は,自己教師付きMAE,半教師付きハッシュタグ分類,CLIPスタイルのコントラスト学習を組み合わせた3段階学習パイプラインを導入し,画像とビデオのモダリティを協調的に最適化する。
我々のアーキテクチャは、効率的なトークン再構成(EViT)により強化されたビジョントランスフォーマーのバックボーン上に構築され、計算効率が向上する。
Xray-Visual は画像分類のための ImageNet やビデオ理解のための Kinetics や HMDB51 、クロスモーダル検索のための MSCOCO など、様々なベンチマークで最先端のパフォーマンスを実現している。
このモデルは、領域シフトと対向的摂動に対して強い堅牢性を示す。
さらに,大規模言語モデルをテキストエンコーダ(LLM2CLIP)として統合することで,特に実環境において,検索性能と一般化能力が著しく向上することが実証された。
Xray-Visualは、より優れた精度と計算効率を維持しながら、スケーラブルでマルチモーダルな視覚モデルのための新しいベンチマークを確立する。
関連論文リスト
- Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - DReX: Pure Vision Fusion of Self-Supervised and Convolutional Representations for Image Complexity Prediction [1.771934382051849]
画像の複雑さを予測するために,自己監督的・畳み込み的表現を融合した視覚のみのモデルを提案する。
DReXはIC9600ベンチマークで最先端のパフォーマンスを達成する。
以上の結果から,視覚的特徴だけでは,人手による複雑度予測に十分である可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-21T06:57:33Z) - Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。
本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。
微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文 参考訳(メタデータ) (2025-06-12T06:37:34Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。